作者前言 


非常高兴《应用 Stata 做统计分析》一书首次译成中文版，通过郭志刚教授的辛勤工 
作，该书翻译得相当专业。自1990年以来，本书的英文版经过了多次修订和再版，已经 
非常成功。为了顺应 Stata 自身的发展，随着每一版修订，《应用 Stata 做统计分析》变得 

越来越丰富，并且覆盖了越来越多的主题。当郭志刚教授与我联系岀版中译本时，我为 
能有更多的新读者研读本书而感到高兴。 

1990年，当我写作首版《应用 Stata 做统计分析》时， Stata 刚刚推出，但已经令人振 
奋。 Stata 逻辑一致的命令和能使用不同工具进行工作的便捷之处都使得这个软件优越 
于当时的竞争对手，并成为现代桌上电脑时代的理想选择。比如，它可以在简单表格、高 
级模型和图形之间迅速切换，以取得对数据的理解。多年来, Stata 已经非常成熟。多次 
更新升级，增加了大量的新特色，从用户友好的菜单和环球网链接到高级模型和编程。 
Stata 的内置编程语言被证明非常重要，因为它允许用户编写自己的程序。因此，发表在 
Stata 期刊中的新技术可以迅速被 Stata 接纳，有时这些新技术就是用 Stata 来进行首创研 

制的。与此同时, Stata 仍在继续增加其基本统计的功能和对复杂数据库管理的支持。 
Stata 的稳步发展证明了它从一开始就有极佳的设计。尤其值得说明的是，虽然技术上具 
有巨大进步，但 Stata 仍然比其他统计软件更容易学。 

《应用 Stata 做统计分析》是关于 Stata 的第一本书。与该软件本身一样，本书的目的 

在于填补一些空白。我是为学生和实际研究者写作本书的，希望在侧重理论的教科书和 
数千页内容的 Stata 手册之间架起桥梁。现代研究者需要各种各样的技术来分析他们的 
数据。因此，《应用 Stata 做统计分析》从基础的题目谈起，比如，统计学基础内容或者如 
何建立一个新数据集等。然后，再进一步介绍那些中级和高级主题，比如，回归诊断、 logit 
模型、稳健回归、因子分析、生存分析、时间序列模型以及编程工作。其中一些问题可能 
岀现在研究生统计教学中，而另一些问题则可能会在研究中碰到。在每一章中，我都尤 
其关注两个实践问题 :一个 是“我如何用 Stata 做这一分析”，另一个是“这些统计结果能 

告诉我什么”。我的目的是写一本读者在工作时想摆在计算机旁的书。感谢郭志刚教授 
的翻译，中国读者现在有机会自己来判断它是否有用了。 


劳伦斯_汉密尔顿 （ Lawrence Hamilton ) 

2007年12月 


译者刖目 


我接触 Stata 软件虽然还算比较早，但在很长时间内却主要是在用其他的统计软件, 
如 SYSTAT 和 SPSS 。但是2000年以后，已经深感软件分析功能的局限，同时也为了给研 

究生开设更多高级社会统计学新课，我开始转向 Stata 软件。这一转向充分得益于劳伦 
斯 • 汉密尔顿教授的《应用 Stata 做统计分析》一书，尤其是在应用稳健回归、波松回归和 
生存分析等方面。由于该书注重实用，而 Stata 的命令语法又比较简单，所以很容易应用 
于统计教学和研究。2006年，重庆大学出版社雷少波编辑为万卷方法 

内社会科学界已颇具影响的研究方法图书——征求选材意见时，我特意推荐了此书，并 
且承担了组织翻译此书的任务。 

中文翻译工作得到了作者汉密尔顿教授的大力支持，他不仅慷慨地提供了原作的电 
子文档，还就我们翻译中发现的 Stata 第9版新作的更新和原书中存在的一些印刷错误作 

了一些修订，特别是重写了变化较大的第12章。这些支持和指导都使得本书中译本质 
量大大提高。 

中译本的翻译工作是由我本人和我的三名社会统计专业博士研究生完成的。我历 
来将专业文献翻译作为研究生学习与训练的重要途径。翻译一个文献虽然会耗费很大 
力气，但要比仅仅阅读一个文献的收益大得多。这是因为翻译工作要求对每一个概念、 
每一段文本和每一步操作都要认真领会，否则就肯定翻译不好。 

事先，由我建立了本书关键词的中英文对照表，一方面是为了全书翻译上的统一，另 
一方面也是为了最后能够形成中译本的关键词索引。英文教材的关键词索引是学习时 
的一种方便途径，由于统计学是一个体系，很多基本概念和方法会在不同章节中反复出 
现，因此关键词索引表可以使这些基本概念、方法在一本书内各处的应用一览无余。相 
比之下，中文教材不太重视这个环节则是一个很大的不足。 

本书翻译工作分 工为: 郭志刚承担第1,9，10，11，13,14 章; 巫锡炜承担第3,7,8,12 

章; 赵联飞承担第 5 ，6章;焦开山承担第4 章; 郭志刚、巫锡炜承担第2 章； 由郭志刚和巫 

锡炜完成关键词索引表的制作;王军、李丁两位同学参与了后期通读清样工作。 

最后，我对全书译稿进行了校对、修订和统稿。这个工作既是为了保证翻译质量 ，也 

是我与学生之间的教学交流形式。学生们通过翻译稿中的修订部分可以学到很多东西， 

当然我也从学生的翻译中学到很多东西。我们都深感受益于汉密尔顿教授的这本既有 

理论又有应用操作的好书，其中的很多示例真是引人人胜。作为最终成果的中译本，我 
们很乐意奉献给广大读者来分享。 

由于译者水平有限，翻译中难免有不当之处，恳请读者指教。 


一套目前在国 


郭志刚 

2007 年 12 月于北京大学 


英文版前言 


《应用 Stata 做统计分析》一书旨在为学生和实际研究工作者在统计教材和 Stata 应 

用之间架设桥梁，以缩小两者之间的差距。作为这样一个中介角色，本书既不准备对某 
一合适教材作详细说明，也不打算描述 Stata 的全部特征。相反，本书示范了如何使用 

Stata 来完成各种各样的统计任务。每章的题目遵循统计学概念主题展开，而不是只集中 
在特定的 Stata 命令上，这使得《应用 Stata 做统计分析》一书又具有与 Stata 参考手册不同 

的结构。比如，数据管理这章涉及了创建、更新数据文件以及改变数据文件结构的各种 
程序。在各章中，概要统计及交互表、方差分析和其他比较方法以及拟合曲线这几章也 
都包含许多不同技术在内而又具有类似性的宽泛主题。 

前6章 （ 直到常规最小二乘法回归）为一般性主题,大体上对应了应用统计学的基础 
课程，但是增加了深度，讨论了分析人员经常碰到的实际问题。比如，如何汇总数据、创 
建虚拟变量、绘制符合发表质量要求的图形或者如何将方差分析转换为回归形式。在第 
7章的回归诊断及随后各章中，我们转入到高级课程或原创研究的领域。这里，读者能够 
找到有关如何获得并解释诊断统计量和图形的基本信息与示范说 明：如 何进行稳健回 

归、分位数回归、非线性回归、 logit 回归、序次 logit 回归、多类 logit 回归或者泊松回归;如 

何拟合存活时间和事件计数 模型； 如何通过因子分析和主成分分析来建构合成 变量; 如 
何将观测案例按经验类型或聚类作 划分; 如何对时间序列作图或建模。 Stata 近年来一直 
致力于与时倶进以保持其领先水平，并且这种努力尤其体现于它所提供的广泛的回归和 


模型拟合命令。 


最后，我们以 Stata 编程的简介来结束全书。许多读者将会发现 Stata 可以做他们想 

做的任何事情，因此他们不需要编写原始程序。但是，对于积极主动的少数人而言，编程 
能力也是 Stata 的主要吸引力之一，并且它也肯定构成了 Stata 广泛传播和快速发展的基 

础。这一章为想学 Stata 编程的初学者开启了大门，不论是用于专门的数据管理，还是建 
立一种新的统计方法，是进行蒙特卡罗实验，还是为了教学。 

通常，对于 Windows 、 Macintosh 和 Unix 等操作系统的计算机都有类似版本 （ “口味”） 

的 Stata 可以安装运行。跨越所有的操作系统, Stata 都使用相同的命令、数据文件和输 
出。这些版本只是在屏幕外观、菜单和文件处理的一些细节上有些差异，这是因为 Stata 
需要遵循每一操作系统的规则。比如，在 Windows 系统下采用诸如“ \目录\文件名”这样 
的文件设定，而在 Unix 系统下则采用“/目录/文件名”的设定。我并未示范所有三种规 
则，而是只采用了 Windows 规则，但是籴用其他操作系统的用户应能发现，其实只需要稍 
加改变即可应用。 



关于第 5 版的说明 


我从 1985 年开始使用 Stata ， 当时还是它的首次发布 （ stata 在 2005 年迎来了它 
的 20 周年纪念，为此该年 Stata 杂志的第 5 辑第 1 期 （ Stata Journal ， 2005 ： 5 ( 1 )) 

开辟了一期特刊，刊登有关 Stata 发展史的文章和访谈，其中也包括《应用 Stata 做统 
计分析》 一 书的简史）。起初， Stata 只能在 MS-DOS 系统的个人电脑上运行，但是其 
取向使得它明显比其主要竞争对手更为现代，因为那时大多数竞争者还处于桌面革命之 
前的取向，还基于主机环境、使用 80 列穿孔卡的 Fortran 语言。与认为每个用户都是 
堆卡片的主机统计软件不同， Stata 将视为与用户的一次对话。它的互动性以及统计 

程序与数据管理和制图的浑然一体，支持了分析思维的自然流程，而这些方面则是其他 
程序所不具备的。 graph (作图命令）和 predict (预测命令）很快成为备受欢迎的命 

令。因此，我开始写作《应用 Stata 做统计分析》的最初版本，对应着 Stata 第 2 版，并于 
1989 年出版。 

该书问世以来， Stata 已经发生了巨大变化。我在该书中就注意到， “Stata 并不是一 

个万能程序 . 但是只要是它做，它就做得棒极了 ' Stata 性能的扩展一直都引人 注目。 

这一点在模型拟合程序的激增以及随后不断条理化方面显而易见。 William Gould 为 Sta - 
ta 建立的架构，包括其编程工具和统一的命令语法都已非常成熟，并已证明能够容纳新 
发展岀来的统计思想。第10章开头提供的大量建模命令或第2章中的庞大函数清单都 
说明，多年来 Stata 在这些方面日益 丰富。 比如，适用于面板数据 （ xt ) 、调查数据 （ 

时间序列数据 （ ts ) 或存活时间数据 （ st ) 等方面的套装新技术开辟了更多可能领域，像 

非线性回归 （ nl ) 和一般化线性模型 （ glm) 以及最大似然估计的一般程序的可编程命令 

也同样做到了这点。其他的关键性扩展还包括了矩阵编程能力的发展和新的数据管理 

性能。在最初版本的《应用 Stata 做统计分析》中，数据管理只是一个附带的题目；但是在 

这次第 5 版中，数据管理自然也就理所应当地成为篇幅上位居第二大的一章。 

Stata 第8版标志着其发展史上最为根本性的升级，这一提升由新的菜单系统或 GUI 

(图形用户界面）和完全重新设计的制图能力所引领。发展于学生版程序 StataQuest 的一 

个有限的菜单系统自第 4 版以来就已经是可获得的选择了，而 Stata 第8版则首次装备了 

个整合的菜单界面，包括了整套类型化命令选择。通过探索就可以学习这些菜单，这 

远比读一本书来得更容易，因此《应用 Stata 做统计分析》只在每一章的开始提供一些有 

关菜单的一般性建议。在绝大部分篇幅中，本书都采用命令方式来展示 Stata 能做 什么； 
而这些命令的相应菜单应当能很容易地找到。 

Stata 第 8 版重新设计的制图能力要求在第 3 章中作相应的大幅修改，因此它就成为 
本版中篇幅最长的一章。这个题目本身就很复杂，正如厚厚的《图形参考手册》 

Reference Manual) ( 以及散见在文档中的其他材料)所表明的那样。我并不打算对基于命 

令的参考手册加以浓缩，而是采用了一种完全不同的、以实例为依据的补充方式。因此 
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关于 第五版的说明 


第3章提供了 49幅各种各样图形的系统化图库，并且提供了每一图形如何绘制的说明。 
更多的实例则贯穿于全书的各个部分，甚至连第14章中的最后一些图形也示范了新的 
变化。因此，《应用 Stata 做统计分析》在一定程度上出乎意料地变成了新图形的展示柜。 

相对于先前的版本（第5版），值得注意的变化是:包括了一些新的章节，诸如面板数 
据(第6章）、稳健标准误（第9章）和聚类分析(第12章）等。若干章中的命令示范一节 
也得到了修正和扩充。那些阅读过老版《应用 Stata 5做统计分析》的读者还将发现一些 
更多的变化，包括新强调了对网络资源的利用（第1章），介绍了数据管理工具(第 2 章）、 
制表命令(第 4 章）、方差分析图形（第5章）、对多元共线性更敏锐的考察(第8章）、基于 
中位数的稳健的类方差分析（第9章）、用于多分类 logit 模型的条件效应标绘图（第10 
章） 、一 般化线性模型（第11章），还有一章全新的时间序列分析(第13章）以及重写的关 
于编程的一章（第14章）。关于 Stata 的其他新面貌或对旧命令的改进（包括 graph 和 
predict 两个命令）也散见在书中各个部分。由于 Stata 现在可以做的事情太多，远远 
超出一本介绍性图书所能涵盖的范围，因此本版《应用 Stata 做统计分析》只是在绝大部 
分章开始的“命令示范”节中简要地展示了更多的程序，或者在选项清单之后提示了如何 
用 help 命令来查询有关细节。 Stata 在线帮助和搜索功能也与程序同样升级换代和更 

新，因此这些也都是有益的建议。 

除了这些帮助文件以外，可用资源还包括了 Stata 的网站、互联网及其文献搜索能 
力、用户群清单管理程序、网络课程、 Stata 杂志，以及 Stata 大量的印刷文献（目前已超过 
5 000页，而且还在增加）。《应用 Stata 做统计分析》提供了 Stata 的便捷入门，而原文有 

“这些”其他资源则能够提供更多的帮助。 


玫谢 


Stata 的设计师 William Gould 值得受到称赞，因为是他创建了《应用 Stata 做统计分 

析》所描述的这个一流程序。我的编辑 Curt Hinrichs ， 在一些审稿人和忠实读者的支持 

下，说服我开始为写作一本新书而努力。从一开始， Stata 公司的 Pat BmrUon ， 以及 Shan - 

Driver , Lisa Gilmore 等许多专家学者，常常在很短期限内给出非常宝贵的反馈。如果 
没有他们的帮助，这一努力是不可能的 。 Alen Riley 和 Vince Wiggins 对我有关图形的问 
题迅速地作出回应 。 James Hamilton 贡献了有关时间序列的建议 。 Leslie Hamilton 校对 


non 


了最终的手稿。 

本书是围绕着数据分析而写就的。为了避免无休止地循环使用我自己的旧例，我使 

用了其他人著作中的例子，包括 Carole Seyfrit 、 Sally Ward ^Heather Turner、Rasmus Ole Ras - 


Erich Buch ^ Paul Mayewski 、 Loren D _ Meeker 和 Dave Hamilton 0 Steve Selvin 分早 


mussen 


了他的数个来自《应用生物统计方法》中第 U 章的例子。书中这些例子的数据来源于一 
些机构，包括冰岛统计局、格陵兰统计局、加拿大统计局、西北大西洋渔业组织、格陵兰自 

然资源研究所和加拿大渔业和海洋部。 Brenda Topliss 所作的 一 次演讲激发了第14章中 

“ gossip ” 编程的例子。其他形式的鼓励或思路则来自于 Anna Kerttula A Richard Haedrich 、 


Jeffery Runge 、 Igor Belkin 、 James Morison 、 Oddmund Otterstad , James Tucker 和 Cynthia M 


Duncan 
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Stata 软件与 Stata 的资源 


Stata 是用于 Windows ^Macintosh 以及 Unix 电脑系统下的 一 种功能完全的统 

计软件包。它的特点包括易操作、速度快，还包括一整套预先编好的分析与数据管理功 
能，同时也允许用户根据需要来创建自己的程序、添加更多的功能。大部分操作既可以 
通过下拉菜单系统来完成，也可以更直接地通过键人命令来完成。初学者可以在菜单的 
帮助下学习使用 Statai ， 任何人在应用自己所不熟悉的程序时都可以由此获得帮助。 
Stata 的命令有很强的一致性和直观意义，可以使有经验的用户更为高效地工作，这一 

特点还使得对更复杂或需要多次重复的任务进行编程变得十分容易。如果需要,在应用 
Stata 时还可以混用菜单方法和命令方法。它还提供广泛的帮助 （ help )、 寻找 
( search ) 和链接 （ link ) 功能，轻轻松松便能完成像查询某一命令句法或其他信息这类 

的事情。 


本书先提供一些介绍性信息，然后我们从一段 Stata 应用示范来说明数据分析的 

“流程”，以及怎样使用分析结果。以后的各章将作更为详细的解释。然而，即使没有任 
何解释，你也可以看到有关命令多么简单 明了： 打开数据文件 filename 的命令就是 

取得相关矩阵的命令是 

correlate , 如此等等。并且，也可以通过 Data 或 Statistics 菜单上的选择来取得 

同样的结果。 

有各种各样的资源来帮助用户学习 Stata ， 以解决任何层次的困难。这些资源并不 
只是来自于 Stata 公司，而且也来自于活跃的 Stata 用户群体。本章的一部分内容就 

是介绍一些最重要的资源 :包括 stata 的热线帮助和打印版的文件，以及在寻求技术帮 
助时应该给哪里打电话、发传真、写信或发电子邮件。 Stata 的网址是 
www . stata . com ， 它提供多种服务，包括软件更新与常见问题解答。此外，还有互联网 

论坛 Statalist Internet ， 以及专门的索引期刊 Stata Journal 。 


filename , 取得概要统计的命令是 


summarize ， 


use 


本书体例的说明 


本书采用几种不同的印刷体例来标志有关文字的类型 意义： 

凡文中采用粗黑体的英文文字（如 bold Courier font ) 专门表示命令。当给出完 
整的命令行时，将以一个英文句点作为起始点，这与 Stata 结果窗口显示或输出文 
件（以 log 为扩展名）中的体例一样。 比如： 

penalty 

命令中的变量名 （ variable ) 或文件名 （ file ) 均为粗斜体，以强调它们是相机而 


list year boats 


men 
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定的，并不是命令的固定部分。 

本书一般行文中涉及变量名 （ variable ) 或文件名 （ file ) 时将采用不加粗的斜 
体，以示它们与一般文字的区别。 

Stata 菜单上的项目将以 Arial (—种无饰线的英文字体——译者注）体表示，以 

破折号表示随后选择^比如，打开一个现有数据文件的菜单选项依次为 File- 

open ， 然后找到并点击这一数据集的文件名。 注意 ，一 些常规菜单的动作也可以通 
过 Stata 主菜单工具条中的文字选项来 完成： 

File Edit 

或者点击下面相应的图标钮来完成。比如，选择 File-Open 与点击最左侧的图标 
钮^賴的行动是完全一样的。用户还可以直接键入以下命令来完成同一动作： 


Prefs Data Graphics Statistics User Window 


Help 


use filename 


可以 在结果 （ Results ) 窗口 看到的 Stata 输出将采用 小号字（如 small 

font ) 来表示。小号字可以允许 Stata 的 8 0列输出格式能够适合本书的排印宽度。 
于是，我们显示名为 penalty 的变量的概要统计指标的计算结果时，就用以下 


Courier 


形式 


penal ty 


ummarx 


Variable 


Obs 


Mean 


Std, Dev 


penalty 


63 


9,59493 

这些体例只适用于本书，而不适用于 stata 本身的程序。 Stata 可以显示不同的 
屏幕字体，但是它在命令中并不使用斜体字。一旦 Stata 的日志 （ log ) 文件装载入文 
字处理软件，或者将结果中的表复制并粘贴到文字处理软件，你应该将其格式改为 

Courier 体的 10 号或更小号字，这样才能将各列对应。 

需要注意， Stata 对于命令和变量名是区分大小写差别的。所以 

一 个命令，而 Summarize 和 SUMMARIZE 就不是命令。并且， PenaJty 和 penalty 将 

是两个不同的变量。 


11 


183 


就是 


， summarize 


Stata 操作的例子 


我们先来看一看 Stata 是如何工作的，这一节将介绍如何打开和分析一个以往建立 
的数据文件，文件名为 lofoten.dta 

于挪威北 极圈内 Lofoten 群岛的渔民自我管理的论文中首次发表了这些数据。这个数据 

中包含10次观测（年）和5个变量，其中就有 penalty 这个变量，它记载了每年渔民违反 
渔业条例的次数。 

如果我们想对这段工作保存一个记录，最好的方法是在工作开始时先打开一个用于输 
出日志的 “log 文件”。 log 文件可以存放命令和统计结果表，但是不能存放图形。要建立 

一个 log 文件，先点击滚轴样的开始 log (Begin Log) 图标钮 

log 文件设置文件名和文件夹。或者，也可以通过在主菜单工具条上选择 File-Log- 
Begin 起始这个文件，还可直接键入以下命令来起始这个 文件： 


Jentoft 和 Kristof ferson (1989) 在一篇关 


，并为这个输出结果的 




using mondayl 




在 Stata 中，有多种方式来做同一件事。每一种都有自己的优点，各自适合于不同 
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场合或不同用户的偏好。 

log 文件既可以按一种特殊的 Stata 格式 （ 

或 ASCII 格式 （ .log) 

文件格式在使用 Stata 时能很好地浏览和打印。其中还可以包括超链接以方便理解命 

令或错误提示。一般的 log 文本文件则不能使用这些格式，但是如果用户将来要将这些 

输出插人其他文档或进行进一步编辑时，就会很方便。用户在选择了所需要的 log 文件 
类型后，便可以点击 Save 。 在这一节中，我们将建立一个 .smcl 格式的 log 文件，将其 

命名为 mondayl . smcl 0 

这里将分析一个现有的 Stata 格式的数据文件 lofoten.dta 。 要打开这个数据， 
我们仍然有好几种 方式： 

从主菜单工具条上点击 File-Open -lofoten - dta ； 

直接点击_ 

键人命令 

在默认 Windows 设置下， Stata 将会在文件夹 C : \ data 中寻找数据文件。如果 
我们想要的文件在别的文件夹中，我们可以在 

\booJcs \ snrsd\chapter01 \Io£oten 

或者用命令 cd (代表 change directory，gp 改变子目录）来改变这一阶段的默认文件夹 

cd c : \ books \ sws 8\ chapter 01 \ 

use lofoten 


1) 来建立，也可以采用一般文本 

1( 即 Stata markup and control language 的 缩写） 


smc 


smc 


i-lofoten .dta ； 


use lofoten 


命令中定义它的位置 


use 


use c : 


通常，取得文件的最简单方法是选择 File - Open ， 然后按常规方式浏览该文件夹加以 


选择 


如果想要取得现在已经在内存中的数据的简要描述，键入 


describe 


Contains data from C:\data\lofoten.dta 
obs 

va rs 

size 


10 


Jentoft & Kristoffersen 1 89 

30 Jun 2005 10:36 


5 


130 (99*9% of memory free) 


storage display 
variable name type format 


value 

label 


variable label 


Year 

Number of fishing boats 
Number of fishermen 

Number o f penalties 

Early 1970s 


year 

boats 

men 

penal t y 
decade 


g 


g 


g 




decade 


early 1980s 


or 


Sorted by : decade year 


许多 Stata 命令都可以简化为它们的前几个字母。比如，我们可以将 describe 
命令简化为仅有一个字母 d 。 如果要使用菜单，那么选择 Data-Describe data - 

Describe variables in memory - OK 也能得到同样的输出表格。 

这一数据只有 10 个观测和 5 个变量，所以键入 list 就能列岀相应内容（或者就键 

入小写字母1也行；或者选择 Data-Describe data-List data - OK 也行）： 










year 
boats I 
men 

penalty | 

decade 


10 


1978 
1731.1 
4854.9 


5.477226 
232 * 1328 
1045.577 
59.59493 
5270463 


1971 

1365 

3514 


10 


10 


10 


63 


11 


10 


• 5 


0 




如果想复制一个表、一些命令，或结果窗口的其他信息到文字处理软件中,首先要将 
结果窗口移到前面来(点击这个窗口或图标钮）。然后用光标选择想要的那些结果， 

点击光标右键，再选择光标菜单上的 Copy Text 。 最后，转到你的文字处理软件中，在适 

当插入点点击光标右键、然后点击 Paste 。 或者，点击该文字处理器工具条上的“剪粘板 

(clipboard) ”图标钮也行。 

那么在这个数据包括的20年中违反渔业条例的处罚次数是否有所变化呢？我们可 
以对每10年 （ decade ) 的处罚 （ penaJty ) 做概要统计，结果显示出1970 年代有更多 
的 处罚： 


tabulate decade 


um (penalty) 


图标钮（即 Print ) 。 


如果需要将这部分结果打印出来，那么首先点击结果 ( Result s ) 窗口将其移到前面 

来，或者是点击 图标钮（即 Bring Results Window to Front ) 也行，然后点击 


5281 

6304 

6794 

5227 

4077 


71 


1970s 
1 970s 
1970s 
1970s 
1970s 


152 


183 


39 


36 


Early 1970s j 

early 1 

1980s I 


Summary of Number of penalties 

Std. Dev 


or 


Mean 


Freq 


1540 

1689 

1842 

1847 

1365 


4033 

4267 

4430 

4622 

3514 


11 


1980s 
1 980s 
1980s 
1 980s 
1980s 


15 


34 


7 4 


15 


1 


1971 
1 972 

1973 

1974 

1975 


2 


3 


5 


1970s I 
1980s I 


96.2 

29.8 


67.41439 

26.281172 


5 


5 


Variable 


Obs 


Mean 


Std * Dev 


Min 


Max 


tables，& tests -Summary statistics- 
sununariz 


ry statistics-OK) 


我们从平均值 ( Mean ) 、标准差 （ Std . Dev •)、 最小值 ( Min ) 以及最大值 （ Max ) 入手 

来进行分析（直接键人 


或 su; 或者选择 Statistics-Summaries , 


summarize 


Total I 


63 59*594929 


10 


同一个表也可以通过菜单选择来取得 

y table 


Statistics-Summaries ， tables ， 

summary statistics , 然后将 

decade 作为变量 1 ( variable 1 ) 填入，而将 penalty 作为概要统计变量 
(variable to be summarized )。 尽管使用菜单选择通常都很简单明了，但是你能看 


& tests- Tables- One / t 
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list 


boats 


I year 


penalty 


decade 


men 













5 8 4 3 
8 6 9 8 


nv i — 1 CTN 4^ 

8 0 0 6 4 


12 3 4 5 
8 8 8 8 8 












I 5 


Slata 软件与 Skata 的资源 


到在描述它们时却比使用简单文字命令更复杂。因此，后面我们将主要使用命令，只在 
少许场合提及菜单选用。对于菜单的探究、搞清其如何使用才能完成同样的任务，将留 

给读者自己来完成。出于同样的原因， Stata 参考手册 （Stata reference 

Is ) 也是采取了以命令为基础的方式。 

也许，处罚次数的减戈是因为在1980年代打鱼的人变少了。我们发现，处罚次数与 

同期渔船数 （ 和渔民人数 ( man ) 之间存在着高度相关 （r >0.8) ： 

penalty 


manua 


correlate Jboa 


man 


(obs = l0) 


pena 1 ty 


boats 


men 


1.0000 
0.8748 
0 . 8259 


boats [ 
men t 
penalty 


1,0000 
0 * 9312 


1.0000 

图形可以更清楚地反映它们之间的关系。图 1.1 按年 （ year ) 画岀了 

penalty 的标绘图，命令为 graph twoway connected 0 在这个例子中，我们先要求 
将按年对 men 作双变量连线 （ connected - line ) 标绘图，定义了左侧 y 轴， yaxis 

(1)。在分隔符 I I 以后，我们又要求按年对 penalty 作连线图，这次定义右侧 y 轴， 
yaxis(2) 。结果图形表明，渔民人数与处罚次数在时间上有对应关系。 

year, yaxis(1) 

connected penalty year r yaxis(2) 


与 


men 


graph twoway connected 


men 


图 1.1 


由于 1976 年至 1980 年的数据有缺失，图 1.1 显示中将1975年直接连接到1981 

年。有时出于种种原因，我们不太愿意这样做。作为备择方案，我们既可以去找到缺失 
数据，也可以采用稍微复杂一点的命令在这段时期留一个不连接的缺口。 

要打印出这个图，点击 Graph 窗口或点击_(将图形窗口移前），然后点击打印图 


mm 藍 


标钮圖 


要将此图直接复制到文字处理器或其他文件中，先将图形窗口移前，右键点击这一 
图形，然后选择 Copy 。 再转到你的文字处理器窗口，定位插入点后，选择一种适当的粘 

贝占方式，比如 Edit-Paste 或 Edit-Paste Special (Metafile) 、或直接点击“剪粘 

板 （ clipboard )” 图标（不同的文字处理器有不同的处理方式）。 
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如果需要将此图存起来将来再用，可以右键点击并选择 Save ， 或选择主菜单上的 

File-Save Graph 。 在 Save As Type 子菜单可以选择存为几种不同的文件格式。在 

Windows 系统中，这些选项 包括： 

Stata graph ( * .gph) (—种“活”的图形，包括足够的信息供 Stata 来编辑） 

As-is graph ( * .gph) ( —种更压缩的 Stata 图形格式） 

Windows Metafile ( * .wmf) 

Enhanced Metafile ( * .emf) 

Portable Network Graphics ( * .png) 

TIFF ( * .tif) 

PostScript ( 

Encapsulated PostScript with TIFF preview ( 

Encapsulated PostScript ( * .eps) 

不管我们需要哪种图形格式，都值得同时再存一份这一图形的“活”的格式，即 .gph 

格式。这种 . gph 格式在将来还可以用 graph use 或 graph combine 命令来重新打 
开、合并、重新着色或重新设置格式（参见第 3 章）。 

除了使用菜单以外，也可以在任何 graph 图形命令之后加上 saving( filename ) 

选项来存为图形文件。比如，要把图形存为文件名为 figurel . gph 的文件，就在原制图 
命令后加人另一个分隔符、一个英语逗号以及 saving ( figurel ) 即可。第 3 章将会 

X 才 graph 命令的原理做更多的解释。现在这个完整的命令包括以下内容（在 Stata 命 
令窗口可以键人任意多的空格，只要没有硬回车即 可）： 


ps 


eps) 


graph twoway connected 


year, yaxis(1) 

connected penalty year r yaxis(2) 


men 


saving( figurel) 


通过以上所有分析， log 文件 inondayl.smcl 中已经存放了我们的结果。用好几 
种方法都能检查这个文件，看看我们曾经做过 什么： 

File-Log-View-OK 

-View snapshot of log file-OK 
键入命令 view mondayl .smcl 

我们可以通过点击 _( Print) 来打印 log 文件。 Log 文件将会在一段 Stata 操作完 

成后自行关闭，或者也可以用下列指令要求提前 关闭： 

File-Log-Close 

_- Cl0S e log file-OK 

键人命令 log close 

一 旦关闭，文件 mondayl .smcl 就可以再通过随后的 Stata 操作的 File-View 再打 

开。为了使输出文件能更容易地被其他的文字处理器打开，可以键入以下命令将 log 文 
件从 .smcl 格式 （ Stata 格式）转换为 .log 格式(标准 ASCII 文本格 式）： 

translate iaoncfayl. smcl mondstyl . log 

或者，一开始就建立 .log 格式文件而不用 .smcl 格式。 
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Stata 的文件營理与滞助 （ Help ) 文件 


Stata 第9版的整套文件包括15卷，共计超过6 0 Q 0 页 :一本 较薄的《初学手册》 

(比如， Get ting Started with Stata for Windows) , 一 本更广泛的《用户指南》 
( User’s Guide) ，三卷本的《基础参考手册 》 （Base Reference Manual ) ，还有分别 


对数据管理、制图、纵贯和面板数据、矩阵编程 （ Mata )、 多元统计、编程、调查数据、存活 
分析和流行病学梯度表，以及时间序列分析的参考手册。《初学手册》只是帮助用户做最 
基本的安装、视窗管理、数据输入、打印等方面的工作。《用户指南》是对一般问题的更广 
泛的讨论，包括资源与问题解决。新用户尤其要注意的是《用户指南》中的一 节:“ 所有人 

都应该知道的命令 （Commands everyone should know )”。 《基础参考手册》按字母 

排列出了所有 Stata 命令。每一条命令都包括了完整的命令句法、所有可用选项的描 

述、例子、有关公式和基本原理的技术说明，以及其他参考文献。数据管理、制图、面板数 

据等在一般参考文献中已经涉及了，但是更复杂的题目是在它们自己的专题手册中才提 
供更具体的处理方法以及例子。还有一本《快速参考与索引》 （ Cuic ± Reference and 
Index ) 提供了全部文件齐全的清单。 

当我们在操作 Stata 时，更简单的是取得在线帮助而不是去查询这些手册。从主 
菜单工具条选择 Help 时将会拉下更多选择的菜单，包括对特定命令的帮助、一般问题、 

在线更新、 Stata 期刊，以及连接 Stata 的网址 （ 


stata . com ) 0 此外，我们也可 


以将浏览器窗口 （ Viewer ) 移到前面（或点击_)，并使用其检索（竺 earc h) 和内容 

(Contents) 的功能来寻找信息。我们还可以使用 help 命令。比如，键入 help 

correlate 命令将使有关帮助信息显示在浏览器 窗口。 与参考手册一样，屏幕帮助也 

提供命令句法说明以及完整的选项清单。它还包括了一些例子，但常常不太具体，而且 

不提供手册中那些技术讨论。但是，浏览器帮助相比手册也有一些优点。它能够在 
Stata 互联网址的文件中搜寻关键词。超级文本链接可以使你直接找到有关条目。屏 

幕帮助还包括一些最近更新的资料，或者你还可以从 Stata 网址或其他用户网址下载 
一些“非官方”的 Stata 程序。 


技哥信息 


选择 Help-Search - Search documentation and FAQs 提供一个直接方式来搜 

寻 Stata 文件资料中的信息或网址上的常见问题解答 （ FAQs ， 即 frequently asked 
questions ) 和其他页面。相应的 Stata 命 令是： 

search keywords 

与命令 search 相关的选项允许我们规定搜寻范围，比如，搜寻 Stata 文件和常见 

问题解答，或者搜寻网上资源，包括其期刊 （ Stata Journal ) ，或者同时搜寻这两个资 
源。 比如： 

search median regression 

这个命令将搜寻文件和常见问题中与关键词 “ median (中位数）”和 
(回归 ）” 有关的信息。如果还想将搜寻范围从文件资料和常见问题进一步扩大到 

Stata 的更多网上资源，就键人 


regression 
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search median regression 


all 


/ 


浏览器窗口的搜寻结果将包括可点击的超链接到更多信息或原著引用 o 


对命令 search 的一种特殊使用在某些场合下会提供更多信息，比如，当我们的命 
令没有被成功执行因而导致得到的是含义不明的 Stata 错误提示码。比如，键人一个 

单词的命令 table 就会得到错误提示或“返回码 （return code )” r (100) : 


.table 

varlist required 

r {10 0); 


这是因为命令 table 显然是需要附上变量表的。但是，错误提示的意义往往并不 
太清楚。如果想知道返回码 r ( 100 ) 到底是什么意思,可 键人： 


search rc 100 


Keyword search 


Keywords 

Search 


100 


(1) Official help files, FAQs, Examples, SJs, and STBs 


Search of official help files, FAQs, Examples, SJs, and STBs 


[P] 


Return code 100 


error. 

varlist required; 

=exp required; 
using required; 
by() option required; 

Certain commands require a varlist or another element of the 
language. The message specifies the required item that 
missing from the command you gave 
diagram. For example, merge requires using be specified; perhaps, 
you meant to type append. Or, ranksum requires a by() option; 
see [R] signrank. 


was 


See the command 1 s syntax 


* 


(end of search) 


键人 help search 可以提供关于这个命令的更多信息。 


Stata 么司 


要搜寻有关定购、许可证和更新方面的信息，你可以通过下列电子邮箱与 Stata 公 


司联系 


stata @ stata.com 


或者访问他们的 网站： 

http : //www.stata .com 

Stata 网站有丰富的用户支持信息，并且还提供其他资源的链接。 


出版社 

(Stata Press ) 还有其自己单独的网站，提供关于 Stata 出版物的信息，包括例题所 
用的数据。网 址为： 


Stata 


http : // www . stata-press 

这两个网站都很值得进行探究。 


com 


* 


Stata 公司的邮寄地址是 


Stata Corporation 
4905 Lakeway Drive 




I 9 


Slata 软件与 Stala 的资源 


College Station, TX 77845 USA 

电话号码也包括很好记的800号码。 

telephone : 1 -8 0 0 - STATAPC U • S 

(1-800-782 -8272 ) 
1-800-248-8272 Canada 
1-979-696-4600 International 
1-979-696-4601 


鲁 


fax 


对于有许可证的 Stata 用户，多数版本的软件在线升级是免费的。这就为用户当 
前版本取得最新改进、错误修复等提供了便捷的途径。如果想查一查自己的 Stata 是 
否需要更新了，就键人以下命令来启动自动在线升级 进程： 


update query 


要寻求技术帮助，用户可以通过电子邮件询问，在标题行中要写明你的 Stata 序列号 


tech 一 support @ stata.com 


不过，在进行电话联系或写信寻求技术援助以前，用户也许应该先链接到 
.stata. com 看看你的问题是否已经在常见问题中解答过了。这个网址还提供产 

品、定购以及帮助 信息； 国际语言 说明； 分类新闻与公告。更多的是提供用户支持，包括 

以下 服务： 


FAQS ——常见问题解答。如果用户有什么困扰，并且在手册中又找不到答案，那么 
就可以查查这里。也许它就是一个常见问题。这里的问答涉及面很宽，既有很基础的问 
题，像“如何将其他软件文件转换为 Stata 格式的数据文件?” ；也有更技术化的问题，比 
如，“如何在完全最大似然估计中使用 heckman 命令来强制 p = 0? ” 

UPDATES ——更新升级。对于有许可证的 Stata 用户，经常性的较小更新或错误 
修复，可以免费下载。 

OTHER RESOURCES 


其他资源。链接和信息中包括在线 Stata 教学（网上课 
程， NetCourses); Stata 期刊的 增进； Stata 用户进行讨论的独立名单服务器 

(Statalist); 销售有关 Stata 的图书和其他最新统计参考资料的 书店； 下载与 

Stata 图书相关的数据与 程序； 通向其他统计网站的链接，其中也包括 Stata 的竞 


争者 


下面一节来描述一些最重要的用户支持资源。 


Statalist 


Statalist 提供了一个极有价值的 Stata 活跃用户之间联系的在线论坛。它独 

立于 Stata 公司，尽管 Stata 的程序员们对其进行监察，并且也经常参与讨论。要订 
阅 Statalist ,就给以了电子邮箱发个 邮件： 

majordomo@ hsphsun2.harvard.edu 

邮件内容只需要写以下一段话 即可： 

subscribe statalist 

于是名单处理器就会承认接到你的来信并附上如何使用这个名单的说明，包括如何将你自 
己的消息张贴到论坛上去。任何发送到下列电子邮箱的消息都会寄到当前所有订阅 者处： 

statalist @ hsphsun2•harvard.edu 

千万不要试图通过直接给 Statalist 地址发订阅或取消订阅的通知。这并不能达 
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到你的目的，但是却会将你的错误分发给成百上千的订阅者。要想从名单上取消订阅， 
请同样写给你订阅时用过的 majordomo 邮箱： 


ma ] ordomo @ hsphsun 2 上 arvard.edu 


但是内容只写以下一段话 


unsubscribe statalist 


或者是同一^意思的另一^表达 


signoff statalist 


如果你计划外出旅行一段时间，取消订阅将保证你的邮箱不致被 Statalist 的消息塞 
满。你总是可以重新订阅。 

要搜寻 


档案，可以链接 


Statalist 


http ： // www.stata . com/statalist / archive / 


Statalist 的材料包括索取程序、求解方法、有关建议，以及回答和一般讨论。与 
Stata 期刊（下面讨论）一道， Statalist 在扩展 Stata 本身能力以及认真的 Stata 

用户的能力方面发挥了主要作用。 


专 H 期刊 Stata Journal 


从1991年至2001年，称为 Stata Technical Bulletin ( 简称 STB ) 的双月刊 

服务于发布新的命令和 Stata 更新，其中既有用户撰写的，也有正式渠道发布的。 

上的文章累积起来，每年都出版一本书，称为 stata Technical Bulletin 
Reprints ，这些书可以从 Stata 公司直接订购 D 

随着网络的发展，用户之间通过 Statalist 这种载体的即时交流成为可能。程序 

文件能从遥远的资源地轻易下载。双月刊印的期刊和磁盘对于用户交流或发布更新与 

用户撰写的程序而言，都已经不再是最好的途径了。为了适应变化了的世界， STB 也必 
须有新的发展。 

于是 ， Stata Journal ( Stata 期刊）开始发行，以迎接挑战、满足 Stata 日益扩大 

的用户群。像以前的 STB 一样 ， Stata Journal 仍包括用户描述研制新命令的文章, 

也包括 Stata 公司雇员编制的非正式命令。但是，发布新命令并不是它的首要关注。 
Stata Journal 还包括带索引的统计学注释文章、书评，以及一些有趣的栏目，比如，由 

Nicholas J . Cox 主持的“话说 Stata ”（ Speaking Stata ) 讨论如何更有效率地使 

_ 

用 Stata 编程语言^ Stata ^ Journai 既给初学者服务，也给老用户服务。比如，这里 
是最近一期的 目录： 


STB 


“Exploratory analysis of single nucleotide polymorphism ( SNP ) for 

quantitative traits ” 

“Value label utilities : labeldup and labelrename ” 

“Multilingual datasets ” 

“Multiple imputation of missing values : update ” 

“Estimation and testing of fixed-effect panel-data systems ” 

“Data inspection using biplots ” 

“Stata in space : Econometric analysis of spatially explicit raster data ” 

“Using the file command to produce formatted output for other applications ” E . Slaymaker 
“Teaching statistics to physicians using Stata ” 

“Speaking Stata : Density probability plots ” 

“Review of Regression Methods in Biostatistics 

Linear ， Logistic ， Survival，and Repeated Measures Models” 


M , A . Cleves 


J . Weesie 
J , Weesie 

P . Royston 

XL . Blackwell，in 
U , Kohler & M , Luniak 

D . Muller 


S , M , Hailpem 

N , J , Cox 


S * Lemeshow & ML . Moeschberger 
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Stata Journal 是每季度发行，可以通过访问 www.stata - com 直接向 St at a 公 

司购买订阅。 


启用 Stata 的固书 


除了 Stata 自己的参考手册以外，描述 Stata 或应用 Stata 来示范分析技术的书 

目越来越多。这些书中包括一般性 介绍; 学科应用，如社会科学、生物统计或经济 计量; 
以及有关调查分析、实验数据、分类因变量以及其他题目的专门著述。 Stata 网页上的 

书店提供最新的书目清单，并且附有内容 描述： 

http ： // www . stata . com / bookstore / 

这个网上书店提供了一个了解和订购不同出版商发行的 Stata 相关图书的好 


地方 


数据管理 


数据分析的第一步就涉及将原始数据改造为 Stata 可用的格式。我们可以将一个 
新数据通过以下几种方式载入 Stata: 从键盘上将数据 输人; 读取原始数据的 ASCII 格 

式 文件; 将电子表格数据粘贴到数据编辑窗口 （ Editor) 中; 应用第三方数据转换程序将 
其他电子表格、数据库或统计程序创建的系统数据集直接转换过来。一且 Stata 有了 
内存数据，我们就可以在 Stata 中将其存为 Stata 格式，以利将来方便地取用和更新。 

数据管理包括最初建立数据集、编辑和校正错误以及内部建档，比如，加上变量标签 
和变量值标签。它也包括许多其他项目进行中所需要的工作，比如，加入新的观测案例 
或新的 变量; 重新组织数据、简化数据、从数据中 抽样; 分割、合并或拆分 数据; 改变变量 
类型; 通过代数或逻辑计算建立新的变量。当数据管理任务很复杂或需要重复进行时， 
Stata 用户可以编写自己的程序来自动完成这些工作。尽管 Stata 是因其分析功能而 

著名，其实它同时也具有广泛的数据管理功能。本章将介绍其中一些基本功能。 

《用户指南》 （ User's Guide ) 提供了多种数据输入方法的总览，并建议了决策采用 

哪一种方法的八条规则。本章所讲的输入、编辑和许爹其他操作都可以通过数据菜单 
(Data) 来完成。数据菜单的下属标题指点了总的任务 分类： 

描述数据 
数据编辑器 


Describe data 
Data editor 


Data browser (read-only editor) 数据浏览器（只读编辑器) 

Create or change variables 


创建或修改变量 


排序 


Sort 


合并数据集 
标签 


Combine datasets 
Labels 


说明 


Notes 


变量用途 


Variable utilities 

Matrices 

Other utilities 


矩阵 


其他用途 


命令示苑 


append using olddata 


读人以前所存的数据集 olddata . dta ， 然后将其所有观测加到当前内存中的数据 
中去。随后键人 save newdata , replace 就能将这一合并数据集存为新数据文件 


newdata.dta 
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browse 


打开表格化的数据浏览器 _( Browser ) 来查看数据。浏览器看起来很像数据编辑器 
(Data Editor )， 但是它没有编辑功能，所以也就没有一不小心改变数据的风险。这一 

操作的替换方法是点击 BI 图标。 


browse boats msn if year > 1980 


要求打开数据浏览器时只显示 year 变量取值大于 1980 的那些观测案例的 boats 

和 men 变量值。这个命令示范了 if (如果）的选择功能，它还可以用于许多 Stata 命令 
的选择操作。 


compre 


s 


自动地将所有变量转换为其最有效率的存储类型以节省内存和磁盘空间。随后键 

人命令 save fi 1 ename , replace 将使这些改变永久化。 

， drawnorm zl z 2 z 3 , n (5000) 

创建一个人工数据集，包含从独立的标准正态分布中抽取的 5 000 个观测案例和 3 
个随机变量 zl ， z 2， Z 3 0 还可以通过选项命令定义其他的平均数、标准差、相关矩阵或协 
方差矩阵。 

.edit 

打开表格化数据编辑器,以便进行数据输人或编辑。这一操作的替换方法则是选择 

Window-Data Editor 或直接点击83 图标。 


edit boats year men 


打开数据编辑器时，只显示 boats 、 year 、 i7?en 等 3 个变量（而且就按这一顺序）， 
以便加以编辑。 


encode strlngvar , gen (numvar) 


根据字符型（非数量型）变量 stringvar, 新建一个有标签的数量型变量，名为 


numvar 


• format rainfall %8 .2 f 

为数量型变量 rainfall 建立一种固定化 （f ) 的显示格式，即 8 列宽，小数点后显 
示2位数。 

, generate 


(x + y)/100 

建立一个名为 newvar 的新变量，其值等于 x 加上 y 后再除以100 


newvar 


o 


uniform() 


generate 


newvar 


建立一个名为 
样，记为[0，1)。 


的新变量，其值从一个随机均勻分布的0到接近1区间中取 


newvar 


fil 


y 


using 


raw 


读人一个名为 data .raw 的 ASCII 文件，其中包含 3 个变量 x ， y ， z 。 这些变量值由 

一个或多个空格分隔开，或者是由制表符、回车符、换行符分隔，或者是由英文逗号分隔。如 
果是由空格做分隔符的，那么缺失值是由英文句点代表，而不是由空格代表。要是采用逗 
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号分隔符,缺失值则由一个句点或两个连续的逗号来代表。 Stata 还提供了更多的缺失值 

处理功能，我们将在后面加以讨论。有一些其他命令更适合于读取制表分隔符、逗号分隔 
符或固定列格式的原始数据。键人 help infiling 可以取得更多的信息 

list 

按默认或“表格”格式列出数据。如果数据中有许多变量，表格格式就很难审阅，那 

么 list, display 可输出更好的结果。参见 help list 中其他有关控制数据表格式 
*• ■ 

的选项。 

I 

list 


in 5/20 

按照当前的数据顺序，列出第5至第20个观测案例的 x,y 
这种 in 方式的选择功能在大多数 Stata 命令中也能同样 应用。 

g olddata 

读入以前所存的数据集 olddata . dta ，然后将 olddata 中的观测与内存中的具 

有同样 id 值的观测加以匹配。在此项操作之前 , olddata 中的观测案例（称为“使用 

(usi ng )” 数据）和当前在内存中数据（称为“主 ( master )” 数据）都必须已经按 id 值 
排好顺序了。 

.replace oldvar = 100 

将变量 oldvar 的原值扩大1 0 0倍后再取代原值 ，:， 

sample 10 

将内存中所有观测案例只随机选取10%样本留下，其他观测案例全数删除 ，:除 
可以按某一百分比抽取样本外，我们还可以选择某一数量的案例 。比 如， sample 
count 就能删除其他观测案例、仅保留55个观测案例的随机样本。 

save newfile 

将当前内存中的数据存为一个新数据文件 newfil e .dta 0 女口果 neivfj ! 2 e . dt<a 已 
经存在，而你又想覆盖以前版本，那么键人 save new file , replace, 替换方法是，在 
菜单上选择 File-Save 或 Pile-Save As 。 如果要把 netvfile . dta 存为 Stata 第7 

版格式，可键入 saveold newfile 0 

• set memory 24m 

(只适用于 Windows 或 Unix 系统 J 为 Stata 数据分配 24 兆字节内存,分配数 

量可以更大，也可以更小。当需要量超过了物理内存时，就会采用虚拟内存 ( 硬盘空间）。 
在使用 set memory 命令前，键人 clear 以便从内存中清除当前数据。 

sort x 


y 


个变量值的清单。 


merge id 


USX 


ffi 


oldvar 


55, 


将数据按 X 值从最小到最大依次排序。那些 X 值缺失的观测案例将排在最后，因为 
Stata 将缺失值当作非常大的值来处理。键人 help gsort 可以了解完成更一般化的 

排序任务的命令，比如，可以选择按升序排还是降序排，也可以专门将缺失值排到最前 


面来. 


tabulate 


if 


> 65 

只对那些7值大于 65 的观测案例输出 x 的频数 表。， 这里 if 的选择功能与在大多 
数其他 Stata 命令中一样。 


y 
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oldflle 

找到磁盘上以前所存的 Stata 格式数据 oldfiJe . dta ， 将其置于内存中。如果当 
前有其他数据在内存中，并且你并不想保存就放弃，那么键入 

用替换方法，选择 File-Open 或点击 ® 也可以完成同样任务 


se 


oldfile, clear 


use 


创走一个軒教据 


以前所存的 Stata 格式数据可以取出并置人内存中，或者米用键人命令 
filename 的方法，或者采用菜单选择方法。本节将描述创建一个全新的 Stata 格式 
数据的基本方法，借助表 2 二中所列 I " 5 年加拿大各省及领土区域数据来加以示范（取 

自联邦、省级及领土区域人口健康咨询委员会， I" 6 年。加拿大的最新领土 Nunavut 

没有列在其中，因为它在 1999 年以前只是西北领土 （Northwest Territories ) 的一 

部分）。 


use 


2.1 加拿大及各省数据 


Female Life 


Male Life 


1995 Pop. Unemployment 

(1000* s) Rate(percent) Expectancy Expectancy 


Place 


81. 1 


10.6 


75. 1 


29 606,1 

575.4 

136.1 
937.8 

760.1 
7 334,2 
11 100,3 
1 137.5 

1 015.6 

2 747.0 

3 766.0 


Canada 

Newfound land 
Prince Edward Island 
Nova Scotia 

New Brunswick 

Quebec 

Qntario 

Manitoba 

Saskatchewan 

Alberta 

British Columbia 
Yukon 

Northwest Territories 


79.8 


73.9 


19*6 


8L3 


74,8 


19.1 


80.4 


74.2 


13.9 


80.6 


74.8 


13.8 


81.2 


74.5 


13.2 


81.1 


75.5 


9*3 


80.8 


75.0 


8.5 


81.8 


75.2 


7.0 


81-4 


75.5 


8*4 


8L4 


75,8 


9.8 


80.4 


7L3 


30. 1 


78.0 


70.2 


65.8 


要创建表 2.1 这样的数据，最简单的方法是通过 Stata 表格化的数据编辑器 (Data 
Editor) ，只要点击图标_就可以调用，也可在顶部菜单条中选择 Window-Data 

Editor ， 或者直接键人命令 edit 。 Stata 会自动生成 varl , var 2 等变量列，用户就 
可以开始为每个变量键人数据。于是 ， varl 包含地名（如 Canada'Newfoundland 

等）， var 2 是人口数，以此类推。 


uarll33 


B1.1 機 F 


10-6 

19.6 


75-1 

■■■，||.一 11 

?3-9 


29606.1 

57574 


Canada 
Newfoundland 


79 




我们可以定义更有意义的变量名，只要双击相应列的标题（如 varl ) ，然后在所启 
动的对话框中键入新变量名即可。尽管变量名最多允许32个字符，但是最好保持在8 
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个或更少字符。我们还可创建包含简要描述的变量标签 r 比如， var2 (人口）可以重新 

命名为 pop , 并建立相应的变量标签为“ Population in 1000 s , 1995”,、 

变量的重新命名和制作标签也可以在数据编辑器之外通过 

variable 命令来完成 ，如： 

pop 


和 label 


rename 


rename var2 


label variabl 


pop n Population in 1000s, 1995 


那些空着的单元格，比如 ， Yukon 和 Northwest 


的失业率将会自 

动生成 Stata 的系统（默认）缺失值码，即一个点。我们在任何时候都可以关闭数据编 


Territories 


fe 器，然后将数据存人磁盘。点击或选择 Window-Data Editor 就可以重新返回 

数据编辑器。 


如果为某一变量输入的第一个值是一个数字，比如，对人口、失业率和预期寿命这些 
变量，那么 Stata 便会认为这一列是“数值变量”，从此以后只允许输人数值。数值也可 
以带正负号，也可以包括小数点，也可以采用科学记数法。比如，将加拿大人口 表不为 

2.960 61 e 


它表示 2.960 61 xlO 7 ，即大约2 960 万人。输人数值时不能包含任何 

逗号，比如， 2 9 60 6 100。要是我们偶然在某列第一次输人的数值中加人了逗号，那么 
Stata 将认为本列是“字符串变量”（参见下 一段） ，而不将其作为数值对待 

如果为某一变量第一次输人的是非数值字符，比如，像地名的输人（或者输人了带逗 
号的“ 1 000” ） ，那么 Stata 会判断此列是字符串变量 ri 字符串变量的值几乎可以是任 
何字母、数字、符号或空格的组合，在 Intercooled 版本或 Small Stata 版本中，长度 
限制为80个字符，在 Stata/SE 版本中允长可达244个字符 


+ 


于是，我们就可以在其 
中存放名称、引用语或其他描述性信息。字符串变量的值可以列表和计数，但是不能 i f 

算平均数、相关系数或大多数其他统计量。在数据编辑器或数据浏览器中，字符串变量 
值显示为红色，所以我们很容易区分这两类变量。 

按以上方式将表 2 • 1的信息输人完毕后，我们便关闭数据编辑器并存储我们的数 

据，将文件命名为 canadaO 


dta 


save ca^nadaO 


Stata 将自动加上文件扩展名 . dta ， 除非我们要它不这样做。如果我们以前就存 
过同名文件的早期版本，那么想要以新版本覆盖原有版本，可以 键入： 


save , replace 


这时，我们的新数据看起来就像这样 


describe 


on t ； a ins dar a i r om C : \ciat a \ canadaO .dta 

obs : 13 

v a r ^ : n 


T uI 2005 in 


Tt] emory free) 


d i s p 丄 a y 


^ t a r a q e 

rype 


va i u e 
]abel 


va r1 ab1e 


name 


r ormat 


varia b 1 e ]abe 1 


var 丄 


^21 s 




P◦ pula t_ icn in 1 0 0 0s 


va 


^ 9 , Oy 


var 


ca 


va r d 


Sorted by : 
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list 


var 5 I 

--I 
81 ， 1 I 

79,8 I 

81.3 

80.4 I 
80.6 


va r 4 


var 3 


var 1 


pop 




75 • 1 
73.9 
74.8 
74.2 
74.8 


10.6 

19.6 

19 , 1 

13.9 

13.8 


2960 6.1 

575,4 

136.1 
937.8 

760.1 


Canada 

Newfoundland 

Prince Edward Island 

Nova Scotia 
New Brunswick 




2 


81.2 ] 
81.11 
80 - 8 I 
81,8 
SI . 4 I 


1 A , 5 
75,5 


13.2 


7334,2 
11100,3 
1137 * 5 
1015.6 

2747 


Quebec 

Ontario 

Manitoba 

Saskatchewan 

Alberta 


6 


9,3 


1 


75 


8.5 


75.2 

75.5 


7 


9 


8.4 


10 






81.4 I 

80.4 I 

78 I 


15 .8 
71*3 
70.2 


9.8 


3766 
30 . 1 
65 . 8 


British Columbia 

Yukon 

Northwest Territories 


11 


12 


13 


+ 


summan 


Min 


Max 


Std. Dev 


Mean 


Obs 


Variable | 


0 


varl 

pop 

var3 

var4 

var 5 


29606.1 

19.6 

75.8 

81.8 


30.1 


8214.304 
4.250048 
1.673052 

9754027 


4554,769 
12*10909 
7 4.29231 
80 _ 71539 


13 


7 


11 


70-2 


13 


78 


13 


■ 


检查这些输出表可以使我们查看一下是否输入数据有错，需要加以改正。比如, 

输出表提供了好几项校对时很有用的信息，包括非缺失观测的频数（对于字 
符串变量这一频数总是为0)、各变量的最小值和最大值。此时，这些概要统计还没有实 
际意义，因为这一数据中有一个观测案例（加拿大）其实代表了所有其他 I 2 个省和领土 

区域的总和。 

下一步就是使我们数据更加自言其明。变量名可以改得更加有意义，比如： 


summarize 


vairl place 

var 3 unamp 
var4 mlxfe 

var5 fllfe 


rename 


rename 


rename 


rename 


还允许我们为数据加上好几种类型的标签。命令 label data 用于对整个 


Stata 


数据的描述。比如 


If 


label data "Canadian dataset 

命令 label variable 只描述单个变量。比如 

label variable pi 
label variable unemp ,f % 15 + population unemployed, 1995" 

label variable mlife 11 Male life expectancy years" 
label variable fl±fe "Female life expectancy years" 


M 


n Place name 


通过制作数据和变量的标签，这个数据就取得了更强的自我解释性 


describe 
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Contains data from C : \data\canadaO.dta 

obs : 

vars : 
size: 


13 


Canadian dataset 0 
3 Jul 2005 10:45 


5 


533 (99,9% of memory free) 


storage display 

type format 


value 

label 


variable name 


variable label 


place 

pop 

unemp 


s tr 21 %21 s 

float % 9.Og 
float % 9 , 0 g 


Place name 

Population in 1000s, 1995 

% 15 + population unemployed, 
1995 

Male life 
Female life 


ml i f e 
f life 


float %9 . Og 
float % 9.0 g 


expectancy years 
expectancy years 


Sorted by : 


当标签制作完成后，我们应当用 File-Save 或通过键人命令来存放这个数据 


save , replace 


以后我们就可以通过点击_随时调用这些数据，或者用 File-Open 或键入 


: \data\canadaO 

{Canadian dataset 0) 


use 


、然后我们可以做一些新的分析。比如，我们可能注意到，男性和女性的预期寿命之 

间存在正相关，而又与失业率存在负相关。并且在预期寿命与失业率的相关上，男性显 
得更强一些。 


correlate unemp mlxfe flifs 

(obs=ll) 


mli f e 


f life 


unemp 


unemp | 
mlife I 

flife t 


1 . 0000 
-0.7440 
-0 , 6173 


1.0000 

0,7631 


1.0000 


数据中各条观测案例的顺序可以通过命令 sort 来 改变。 比如，要想按人口数由小 
到大来排序， 键人： 


sort 


Pop 


字符串变量无法定量排序，所以将按字母顺序来进行排序。键人 
改变观测的顺序，将 Alberta 排在第 一 ，将 British Columbia 排在第二，如此等等。 

我们能够用命令 order 来控制变量的顺序。比如，我们可以将失业率这个变量排 
在第二而将人口数排在 最后： 


sort place 就会 


order place unemp mlife flife pop 


数据编辑器也有一些按钮来执行这些功能。在用光标选择了某一列后，点击 sort 按 

按钮则可以将当前选择变量分别移动到变量表的左右 
两端位置。正如其他编辑工作一样,这些改变只有在经过存盘之后才会成为永久性的。 

数据编辑器的 Hide 按钮并不重置数据，但是可以使某一列从数据表中暂时不显示。 

在我们需要输人很多变量但想使地名 （ 或其他案例识别码）总能看见的场合下，这种功能 
就提供了很大方便，将这些变量置于我们正要输入的变量旁边。 

我们还可以事先限制数据编辑器只能对某些变量工作，并按特定的变量顺序，或者 
只选择某个变量值范围。 比如： ’ 


钮就会按此列排序。而< <and> 


edit place mlife flife 
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或者 


edit place unemp if pop > 100 

后一个例子应用了 if 选择条件，这就是下一节中将要介绍的一个重要的工具。 


走义教招的 子集： in 和 if 违 奔条件 


许多 stata 命令都可以限制为对数据的一个子集来执行，这就需要在命令中加上 
in 或 if 选择条件(这种条件在许多菜单选择里也是提供的，注意寻找 if/in 或 by/ 
if/in 按钮）。选项 in 指定了命令应用的观测案例编号。比如， list in 5 

Stata 只列出第5条观测案例。要想列岀第1至第20条观测案例，可以键人命令 

1/20 

字母1用来标志最后一个案例，而 - 4 则表示从最后开始倒数的第 4 个。于是，我 
们可以列出加拿大人口最多的4个地方（其中也包括了加拿大自己），命令 如下： 


告诉 


list x 


sort pop 
list place pop 


-4/1 

这里特别需要注意，在 1( 数字 1 或第 1 个案例）与 1 (小写字母 “ el ” 或最后一个案 
例）的不同，因为它们在印刷效果上较难 区别。 选择条件 in 在大多数其他分析或数据编 
辑命令中也能应用。另外,应用这个选择条件时,我们应当保证数据已经事先排好序了。 

选择条件 if 也有广泛的应用价值，但是它是按特定的变量值来进行选择。正如所 
见 ， canadaO . dta 的观测案例不仅包括了加拿大的12个省或领域，而且也包含了作为 

总的加拿大自身。这时，我们可能需要将总的加拿大排除出去，只对12个省或领域进行 
分析。其中一个方法就是将分析限制于人口少于2 000万人的地方，也就是说分析将排 

除作为全体的加 拿大： 


< 20000 


pop 


summanz 

Variable I 


Std. Dev 


Max 


Obs 


Mean 


place 
pop 
unemp 
mlif e 

flife I 


11100.3 

19.6 


3435.521 

4.44877 

1 -728965 
1.0116 


30 I 1 


2467.158 

12.26 
14 . 225 
80.68333 


70.2 


7 5 


78 


81.8 


比较这里与前面的 summarize 结果就可以看出有多大的变化了。比如，前面取得 

的人口平均数存在着极大的误导性，因为它将所有的人都计数2次。 

“ <”（表示小于）是一种关系运算符，一共有6种关系运算符 （relation 

operators ) ，说明如下： 


等于 


不等于（也可 以用- =) 


大于 


小于 


> = 大于等于 
< = 小于等于 

两个连续等号“==”标志一种逻辑检验，表示“是否左侧的值与右侧的值相等”。对 
于 Stata 而言，一个等号则代表了另外的意思，它表示“让左侧的值与右侧的值相同”。 
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Prince Edward Island 

Newfoundland 

Yukon 

Northwest Territories 


136. 1 
575,4 
30,1 
65.8 


11 


12 


13 


+ 


8 


I Manitoba 

Saskatchewan 
I Alberta 

British Columbia 


1137.5 

1015.6 
2747 

3766 


8 拳 5 


75 


9 


75,2 
75.5 

75.8 


10 


8.4 


11 


9.8 


m 


注意两个失业率缺失的地方也被列在其中，成了“大于 IS ” 的地方。在这种情况下，问题 
是明显的，但是要是对于很大的数据而言，我们就有可能发现不了。假设我们分析一个 


list 


unBmp > 1 


place 


unemp rnlif e 


flife I 


pop 


sort unemp 


关于缺失值的注意事项 : Stata 一般将缺失值显示为一个点，但在某些运算中 （ 特别 
是在 sort 和 if 运算中，尽管在统计计算如平均数或相关不是这样），这些相同的缺失 

值被当作非常大的正值。如果我们按地区的失业率由小到大排序，然后要求查看哪些地 
方的失业率高于 15% ，看看会发生什么 事情： 一 
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单一等号不是关系运算符，也根本不能用于 if 选择条件内。单一等号有另外的意义。 

它们用于根据代数表达式来创建一个新变量，或者将计算值替代原来的变量值。单一等 
号也用于某些特殊应用场合，比如，加权和假设检验。 

所有这些关系运算符都能用于按照数值变量的观测值来选择案例。只有两种关系 

运算符“==”和“！= ”只对字符串变量有意义。在对字符串变量应用 if 选择条件时， 

要将目标值括在英文双引号中。比如，我们可以用下面的命令取得除整体加拿大以外 
(只留其12个省和领域）的概要 统计： 


summari e if 


place 


fV Canada T, 


通过加人逻辑运算符便可以在一个 if 选择中包含两个或更多的关系运算符。 

Stata 的逻辑运算符有以下 几种： 


和 


或（注意，这是个符号，而不是数字1或字母 1) 

! 否（也可 以用- 表示） 

加拿大领域中 Yukon 和 Northwest 的人口都少于 100 000 人。要想排除这两个 

最小的地方和最大的地方(加拿大整体），只输出另外10个省的失业率和预期寿命的平 
均数，我们可以应用以下 命令： 


unemp mlife flife 

Std. Dev 


summari 

Variable 


p p > 100 


P P < 20000 


Obs 


Mean 


Max 


* 


unemp 

mlife 

flife I 


10 


12,26 
74.92 
80.98 


4 .44877 

605X633 
586515 


19.6 

75.8 

81.8 


10 


73,9 

79.8 


« 


10 


* 


采用括号可以定义多重运算符的优先顺序。比如，我们可以列出所有失业率低于 
或男性 预期寿 命高于 75 . 4 和女性预期寿命高于 81.4 的 地方： 

. 11 t 


9 


{mlife >- 7 


unemp < 


flife >=81,) 


place 


mlife 


flife I 


pop 


unemp 




















4 3 10 
7 7 7 7 


o < — j i —- 1 
8 8 8 8 
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政治选举的民意测验结果。下列命令就会将变量 vote 列表，不仅是按照预想包括了 6 S 
以上的人，而且还会包括所有年龄值缺失者： 


tabulate vote if age 


> 


由于存在数据缺失者，我们就不得不明确地在 if 表达式中对此加以处理。 


< 


& 


tabulate vote if age > 


的小于不等式是一种选择非缺失值案例的通用方法。尽管这里我们 
只使用了默认的“.”缺失值码，其实 Stata 还允许设立 27 种不同的缺失值码。其他 26 
种码在系统内代表着比更大的数值，所以 < .便会排除所有这些缺失情况。键入 

help missing 可以取得更多的相应细节。 

选择条件 in 和 if 只是将观测案例暂时地置于操作之外，以便某一个命令并不应用 
于它们。这些选择条件并不影响内存中的数据，下一条命令就会应用于所有的观测案 
例，除非其再次用了 in 和 if 选择。如果想要从内存中清除数据中的变量，需要采用 

drop 命令。比如，要从内存中清除和 fJife ， 可以 键人： 

• drop mlife flife 

我们还能通过 in 选择或 if 选择从内存中清除观测案例。由于我们在前面曾经按 

排过序，上述两个领域居于数据的第 I 2 项和第 I 3 项。加拿大本身处于第 6 项。 
可以应用 in 选择来清除这三个不是省的地域。命令 drop in 12 /13 意味着“清除第 

12至13项观测案例”。 

list 


像“ age 


< 


unemp 


place 


unemp 


pop 


1015 * 6 

2747 
1137.5 
11100.3 

3766 


Saskatchewan 

Alberta 
Manitoba 
Ontario 
British Columbia 


8.4 


8.5 


3 


9.3 


9.8 


29606.1 
7334*2 

760.1 

937.8 

136.1 


10.6 

13,2 

13,8 

13*9 

19.1 


Canada 

Quebec 

New Brunswick 
Nova Scotia 
Prince Edward Island 


10 


19.6 


575,4 

30.1 
65 • 8 


Newfoundland 

Yukon 

13. I Northwest Territories 

I _. -- ^ — — — ― — ― - - —- — — — — — ― 


11 


12 




• drop in 12/13 

(2 observations deleted) 


• drop 

{1 observation deleted) 


1 


同样的改变也可以通过执行 if 选择来完成，这一命令表示“如果 Place 为加拿大 

或人口少于100便加以清除”。 


< 100 


• drop if place == ’’Canada" 

(3 observations deleted) 


pop 


清除了加拿大和其他领域并清除了变量 mlife 和 flife 以后，我们便有了以下简 


化的数据 


list 
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place 


Pop 


unemp 


Sas katchewan 

Alberta 

Manitoba 

Ontario 

British Columbia 


1015.6 
2747 
1137.5 
11100.3 

3766 


8,4 


3- 


8 .5 


9.3 


5 • 


6 ■ 


Quebec 

New Brunswick 
Nova Scotia 
Prince Edward Island 

Newfoundland 


73312 

760.1 
937 , 8 

136.1 
575,4 


13.2 

13.8 

13.9 
19.1 
19.6 I 


8 • 


10 ， 


我们也可以用数据编辑器的 Delete 按钮来清除所选的变量或观测案例。 

除了告诉 Stata 哪些变量或观测案例需要清除外，有时我们指定哪些变量或观测 
案例需要保留则更为简单。上述同样的数据简化也可以通过以下命令来 取得： 


- keep pl^CB pop unemp 
_ keep if place 

(3 observations deleted) 


Canada 


>=1 


pop 


如同其他对内存数据的改变一样，这些简化都不会影响到磁盘上的文件，除非我们 
将这些数据进行存盘。这时，我们有一个选择是覆盖旧的数据文件 （ save , replace )， 

于是就摧毁了旧文件；另一个选择是将新修改的数据存为一个新命名的文件（选择 

File-Save As 或者键入形式为 

会存在于磁盘上。 


的命令），这样一来两个版本的数据都 


save iiewzzame 


创建和眷代支量 


命令 generate 和 replace 使我们可以创建新的变量或者改变现有变量的值。比 

如，如同大多数工业国家一样，加拿大的女性比男性的寿命要长。为了分析这一性别差 
异上的地区差别，我们可以调用数据 canadal . dta ， 并创建一个新变量为女性预期寿命 
( Hife ) 与男性预期寿命（瓜 life ) 之差。在命令 generate 或 replace 的主要部分， 
我们使用单一等号符（这与 if 选择不同）。 


• use canadal f clear 

(Canadian dataset 1) 


generate ga.p = fl±fe 
label variable 


inline 

grdp n Female-male gap life expectancy 


• describe 

Contains data from C : \data\canadal.dta 
obs 

var s 

si 2 e 


13 


Canadian dataset 1 
3 Jul 2005 10 : 48 


6 


585 (99. 9% of memory free) 


storage 

type 


isplay 

ormat 


value 

label 


variabl 


ame 


variable label 


place 

pop 

unemp 


str21 %21s 

float % 9 . Og 
float % 9.Og 


Place name 


Population in 1000s, 1995 

% 15+ population unemployed, 
1995 

Male life 
Female life 
Female-male 


mli f e 
flife 


float %9 • Og 

float % 9 . Og 
float %9 . Og 


expectancy years 
expectancy years 
gap life expectancy 


gap 


orte 















75*1 

73,9 

74,8 
74.2 
74 - 8 


6 


5*900002 


6.5 


6.200005 

5.799995 


Canada 
Newfoundland 
Prince Edward Island 

Nova Scotia 
New Brunswick 


2 


3 


5 


6 


Quebec 

Ontario 

Manitoba 

Saskatchewan 

Alberta 


8 


9 


10 


11 


British Columbia 

Yukon 

Northwest Territories 


81 * 4 
80.4 


7 b .8 

71.3 

70*2 


5.599998 

9*099998 
7 _ 800003 


12 


13 


78 


+ _ 一 


对于省份纽芬兰 （ Newfoundland ) ，新变量 gap 的真实数值应该为 79.8-73.9 

5 . 9 岁，但是输出中却显示这个值为 5.900 002。与其他计算机程序 一样， Stata 以二进 

制形式存放数据，而并没确切的二进制代表。这一小小的不准确起源于二进制中对 
小数部分的近似，不会对统计计算有什么影响，因为计算是以双精度（每个数占8字节) 
进行的。然而，它们显示在数据表中令人不安。我们可以改变显示格式，让 Stata 按四 
舍五人方式显示。以下命令指定了固定的显示格式，总列宽为4位，显示1位 小数： 

• format gap % 4.If 

然而，就是这个数值显示为 5 . 9 了，以下命令却输出不了相应的观测 案例： 




list i 


gap 


这是因为 Stata 相信这个数值并不正好等于 5.9 0 (从技术角度讲， Stata 是以单 

精度存放 gap 数值然而却以双精度进行所有计算，并且 5.9 的单精度近似值与双精度近 
似值并不相同） 

显示格式，以及变量名和标签，也可以在数据编辑器里双击相应列来完成。固定数 
字格式如％ 4.1f 只是三种最常用的数字显示格式类型之一。这些显示格式类 型是： 

一般 ( general ) 数字格式，其中 w 定义了数字显示宽度或占几列，而 d 
定义了小数部分至少要显示的位数。为了以最佳（但是可变）方式来显 
示，指数记数法（比如 ,1.00 e + 7 ,表示 1.00 xlO 7 或1 .000 万）和小数点 

位置移动都会按需要自动完成 

固定 （ fixed ) 数字格式，其中^定义了数字显示的总宽度，而 d 定义了 
小数部分的固定显示位数。 

指数 （ exponential ) 数字格式，其中 w 定义了数字显示的总宽度，而 d 
定义了小数部分的固定显示位数。 

比如，在表 2 .1 中我们看到，加拿大1995年的人口近似为29 606 100人，而 
Yukon 领域人口为30 100人。让我们看看这两个数据在几种不同显示格式 （ format ) 

下是怎 样的： 


% w.d 


O 


% w.df 


% w.d 


format 


Canada 


Yukon 


%9,0g 
%9_ If 
%\ 2 . 5 e 


2.96e +07 


30100 

29606100.0 30100.0 

2.96061 e +07 3. OlOOOe +04 
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flife mlife 


list place 


gap 


place 


flife 


mlife 


gap 


19 10 0 

8 7 8 8 8 


7 8 3 6 2 
9 9 0 0 0 
9 9 0 0 0 
9 9 0 0 0 
9 9 0 0 0 
6 5 8 6 9 


1* - — i 【 — J i — I 
8 8 8 8 8 
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尽管所显亦的数值看起来很不同，其实它们的内部数值是相同的。统计计算并不受到显 
示格式的影响。其他数字显示格式选项还包括用逗号分隔、左对齐和右对齐、左侧空位 
补0。此外还有日期、时间序列变量和字符串变量的特殊格式。请参阅 help f 
提供的更多信息。 

命令 replace 可以完成 generate 一样的各类计算，但是它不是创建一个新的变 

I 

量，而是替代一个现有变量的数值。比如，在我们的数据中变量;是以千为单位提供人 
口数值的。如果要将其转变为简单的人口数，我们只需要将所有的值乘以1 000即可 
(命令中的“ * ”即表示乘以）。 

• replace pop = pop 

命令 replace 可以做这种大规模改变，也可以与 in 或 if 条件一起使用来选择性 
地编辑数据。为了示范,假设我们有包括年龄 a 讲和出生年份这两个变量的问卷数 

据。以下命令可以改正那些年龄为29却被输人为229的 错误： 


t 


1000 


replace 


29 


229 


age 




此外，下面的命令可以对第 1 453 条观测案例的年龄值的错误进行修改 

replace age = 29 in 1453 

再举一个更复杂的例子， 


replace 


2005-bom 


< 2005-born 

如果在 age 缺失或报告的年龄小于2005 减去出生年的差值时，这条命令将用2005减 
去出生年得到的差值来取代原来的 age 变量值。 

命令 generate 和 replace 还提供了创建分类变量的工具。前面我们注意到加 

拿大数据中包含着几种不同类型的观测案 例:有 2个领土地域，10个省，还有1个整个 

国家的观测案例。尽管用 in 和 if 条件可以用来选择，并且用 drop 也能清除数据，最 

方便的作法可能还是设置一个分类变量来表示观测案例的“类型”。以下我们示范一种 

_ 

方法来建立这样一个变量物 e ^先创建一个常数值的吵 e ， 各条观测案例都赋值为1。然 

后，我们将 Yukon 和 Northwest Territories 的吵 e 值替换为2，将 Canada 的妙 e 值替换为3。 
最后的一步工作是为这个新变量制作标签，并且定义变量值1、2、3的标签。 


> 


K] 








• use canadal f clear 

{Canadian dataset 1) 

• generate type = 1 

replace type = 2 i 

Territories VT 

(2 real changes made) 

• replace type = 

(1 real change made) 

• label variable typ 
label values type typBlbl 
label define typelbl 1 n Province 
list place flife mlife grap type 


place == "Yukon" 


place 


"Northwest 


3 


place == "Canada 


Province, territory or nation" 


Territory 


Nation 


Nation 

Province 

Province 

Province 

Province 


Province 

Province 

Province 

Province 

Province 


Canada 

' Newfoundland 

I Prince Edward Island 
I Nova Scotia 

Hew Brunswick 


2 


3 


5 


Quebec 

Ontario 

Manitoba 

Saskatchewan 

Alberta 


7 


9 


10 


6 


75.1 

73*9 

74,8 

74.2 
74,8 


5.900002 


6,5 


6.200005 

5.799995 


British Columbia 

Yukon 

13. I Northwest Territories 


11 


81 . 4 
80.4 


75.8 

71.3 

70.2 


5.599998 

9.099998 

7.800003 


Province 

Territory 

Territory 


12 


78 


r 


正如所示，为分类变量做标签需要两条命令。命令 label define 指定哪个标签与 
哪些数值相联系。而命令 label values 指定的是这些标签与哪个变量相联系。一套 
标签（用命令 label define 建立）可以应用于任何数量的变量（即在 label values 

命令中可以指定许多变量来参照）。变量值标签可以包括32 000个字符，但是在它们不 
太长时各种任务便能工作得最好。 

命令 generate 能够使用任何老变量、常数、随机值和表达式的任意组合来创建新的 
变量， replace 则能够为老变量产生新的值。对于数值变量而言，可以应用以下代数运 


算符 


加 


减 


乘 


* 


除 


乘方 


用括号来控制计算的顺序。当没有括号时，计算将采用通常的优先顺序。对于代数运算 
符，只有加法，即“ ”，可以用于字符串变量，功能是将两个字符串连接成为一个。 

尽管目的不同， generate 和 replace 有类似的命令语法。它们都能采用 Stata 

运算符和 in 与 if 选择上的任何数学或逻辑的可能组合。这些命令还可以运用 Stata 
大批的特殊函数，我们将在下一节对此加以 介绍。 


使用函教 


这一节介绍许多与 generate 或 replace 一起使用的函数。比如，我们要创建一 
个名为 loginc 的新变量，等于收人变量 
generate 命令中使用自然对数函数 In 。 

— In (income) 

自然对数 In 只是 Stata 数学函数之一。下面列出这些 函数： 

的绝对值 

反余弦函数。因为3 6 0度=2 it 弧度， acos(x) * 180 ^.pi 
得到反余弦的反算度数(其中_ Pi 表示数学上的常数77 ) 

反正弦函数 
反正切函数 


的自然对数，那么我们就要在 


income 


generate 1 


abs(x) 


x 


acosi x 


) 


asint x 


atan(x) 
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f life 


mlife 


place 


type 


gap 


7 8 3 6 2 
9 9 0 0 0 
9 9 0 0 0 
9 9 0 0 0 
9 9 0 0 0 
6 5 8 6 9 


1 1 o 1 1 
8 8 8 8 8 


19 10 0 
8 7 8 8 8 
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atan2 (y,x) 
atanh( x) 

ceil(x) 
cloglog(x) 
comb( i7, A:) 

cos(x) 


y/x 的反正切函数 
双曲反正切函数 

大于等于 X 的最小整数，比如，在 71-1 < x ^ n 时得整数 
X 的互补双对 数:即 ln(-ln(l-x)) 

组合函数 ( n 个中一次取; c 个时所有可能组合数） 

余弦函数。要知道 y 度的余弦，键入 


n 


generate y = cos (y 


i/180) 


digamma( x) 


dlnr (x) /dx 

指数函数 

小于等于 X 的最大整数，比如 ^ n ^ x < n + l 时得整数71 
截取 x 的整数部分 

的互补双对数的逆：即 1 -exp( -exp(x)) 

的 logit 转换的 逆：即 exp(x) /(I + exp(x)) 

的自然对数（以 e 为底）。计算任何其他以数字 B 为底的 
的对数，可键人命令 

generate y = ln(x)/ln(B) 

的阶乘的自然对数。求 x 的阶乘，可键人命令 


(X) 




floor(x) 
trunc(x) 

invcloglog(x) 

invlogit(x) 


x 


lnfactorial(x) 


x 


generate y = round(exp(lnfact(x) , 1 )) 


r ( x ) 的自然对数。求 r ( x )， 可键入命令 




exp (lngamma (x)) 


generate y = 


log(x) 
log 10 (x) 

logit(x) 


类似 ln( x) 的自然对数 


的对数（以 10 为底） 

的对数发生 比：即 In ( x / ( 1 - X )) 


max ( xl ， x 2 ，• •，xn ) xl ， x 2 Kn 中的最大值 

min( xl #2 ， • • ,xn ) xl ， x2 ， 
mod(x,y) 

reldif 0 ， y) 

round ( x) 

round(x ? y) 
sign(x) 


中的最小值 


,xn 


与 x / y 的余数。 

相对差 异:即 lx-y |/( ly 1+1) 
x 的四舍五人整数 
按 y 为单位 x 四舍五人 

符号函 数:当 x <0 时为 -1， 当时为0,当 x >0 时为 + 1 

正弦函数 
平方根函数 

x 的移动合计（参见 help egen) 

正切函数 

双曲正切函数 
即 d 2 lnr (x) / dx 2 

还有许多概率函数可用，下面也予以列出。有关重要细节，包括定义、参数的限制条 
件和缺失值的处理,请参见 help probfun 和文献手册。 

贝塔分布的概率密度函数 

二项分布 :在一 次试验的成功概率为 p 的条件下，在 n 
次试验 中有& 次及更多次成功的概率 

既絲布 : 两个相絲数为 r 的正紗布的齡累计分布 


) 


sim, x 

sqrt(x) 
total(x) 
tan(x) 

tanh(x) 

trigamma(x) 


betaden( a,b 9 x) 

Binomial 


binomial (h,k ， r) 
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自由度为12的累计卡方分布 
自由度为^的反向累计(右侧，存活）卡方 分布： 

chi 2 tail ( rz , x ) =1 - chi 2 (n,x) 

累计伽玛分布的 ga _ ap ( a ， x ) 对 a 的偏导数 
累计伽玛分布的 ga _ ap ( a ， x ) 对 x 的偏导数 
累计伽玛分布的 gammap ( a ， x ) 对 <3的二阶偏导数 
累计伽玛分布的 gammap ( a ， x ) 对 a 和 x 的二阶偏 


chi2 (n,x) 
chi2tail(n ? x) 


dgammapda( a y x) 

dx( a , x ) 

dgamzaapdada ( a , x ) 

dgeunmapdadx(a, x) 




导数 


累计伽玛分布的 gammap ( a ， x ) 对 x 的二阶偏导数 

分子、分母自由度分别为 W 和的累计 F 分布 
分子、分母自由度分别为 nl 和的 F 分布的概率 


dxdx( a , x ) 




F(nl ， n2 ， f) 

Pden( nl ， n 2 ， f ) 


密度 


分子、分母自由度分别为 nl 和 W 的反向累计（上端， 

存活） F 分布 

Ftail(nl ,n2 , f) = 1 -F(nl ,n2 ,f) 

伽玛族分布的概率密度函数，其中 gammaden ( a,l ,0 , 
x )= 累计伽玛分布 gammap ( a , x ) 的概率密度 

对于 a 的累计伽玛 分布; 又称为不完整伽玛分布 
对于 a 和方的累计伽玛 分布; 又称为不完整伽玛分布 


Ptail(nl ， n2 ， f) 


gammaden( a , jb , g , x ) 


gaxnmap( a , x ) 
ibeta( a,jb,x) 

invbinomial (n,k,P) 二项分布逆运算。当 P ^0.5 时，本函数求一次试验的 

成功概率 p , 使 n 次试验中有; c 次及以上成功的概率为 
P ; 当 P > 0.5 时，概率 p 使 II 次试验中有； c 次及以下 

成功的概率为1 -P 

卡方分布逆运算。如果 chi2(rj ， x) =_ p ， 有 invchi 2 

(n ， p) 

chi2tail( ) 的逆运算。如果 chi 2 tail ( n ， x ) = p , 

有 invchi 2 tail ( n y p ) 


invchi2( n , p ) 


=x 


invchi2tail( n , p ) 


-x 


累计 F 分布的逆运算。如果 F ( nl ，^2， f ) ，有 

_ 

invF(nl y n 2 , p ) - f 

invPtail(nl y n2 , p ) 反向累计 F 分布的逆运算。如果 Ft ail ( nl ， f )= 

p ， 有 invFtail ( nl ， n 2 , p ) = f 

累计伽玛分布的逆运算。如果 gammap ( a , x ) = p ，有 

invgammap ( a , p ) 

累计贝塔分布的逆运算。如果 ibet : a ( a ， i >， x ) ，有 

invibeta ( a ， b ， p ) 

累计非中心卡方分布的逆运算。如果 nchi 2( n ， L ， x ) 二 

p , 有 invnchi 2 ( 12 , L ， p ) 

invnFtail(nl , n 2, L , p ) 反向累计非中心 F 分布的逆运算 D 如果 nFtadl ( nl ， 

n 2 ， L ， f ) = p ，有 invnFtail(nI ， n 2， L ， p ) - f 

invnibeta( a , b , L , p ) 累计非中心贝塔分布的逆运算。如果 nibeta ( a , jb , 

L ， x ) = p ， 有 invnibeta ( a , jb , L 5 p ) 

累计标准正态分布的逆运算。如果 normal ( z ) 二 p ， 


invF (nl ， n2 ， p) 


invgammap(a ， p) 


-x 


(a ， b ， p) 


invibeta 


-X 


invnchi2 (n ， L ， p) 


-X 


=x 


invnormal(p) 
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有 


al ( p ) 二 Z 

反向累计 t 分布的逆运算。如果 ttail ( ii , t) = p ，有 

invttail ( = t 

4 

非中心伽玛分布的概率密度函数，有形状参数 a 和 b 以 
及非中心参数 L 

累计非中心卡方分布，其自由度为^以及非中心参数 L 
非中心 F 分布密度，其自由度分别为 nl 和泣，非中心 
参数为 L 

反向累计（上端，存活）非中心 F 分布，自由度分别为 
nl 和，非中心参数为1/ 

累计非中心伽玛分布，形状参数为 a 和 t >， 非中心参数 


mvnorm 


invttail(n ， p) 


nbetaden ( a ， b ， L ， x) 


nchi2 (n ， L ， x) 

nFden( nl ， n2 ， L ， x) 


nFtail( nl ， n2 , L 9 x) 


nibeta( a ， b ， L ， x) 


为 L 


normal( z) 

normalden(z) 
normalden 
normalden( s) 
npnchi2 ( n,x,p) 


累计标准正态分布 

标准正态分布密度，平均数为 0 ，标准差为1 
正态分布密度，平均数为0，标准差为 s 
正态分布密度，平均数为 m ， 标准差为 s 
求累计非中心卡方分布的非中心参数值。如果 nchi 2 

( n , L , x ) npnchi 2 (ii,x,p) =L 

自由度为 n 的 t 分布密度 

自由度为 n 的反向累计（上端） t 分布。这一函数反求 
: T > t 的概率 

伪随机数据发生器，获得区间 [ 0，1 ) 内理论均匀分布的 
返回值 


( z y s) 


tden(n,t) 

ttail(r] ， t) 


uniform() 


在 uniform( ) 的括号内无参数。根据需要，我们可以控制这一伪随机数发生器的 
初始值、乃至整个系列的“随机”数。相应命令为 set seed #，其中#可以是从0到 

-1 之间的任意整数。省略 set seed 命令就对应着要求 set seed 123456789 ,于 

是总是产生同样的系列数。 

Stata 还提供 4 0多种日期函数以及与日期相关的时间序列函数。在其《用户指 

南》的第 27 章提供了有关清单，或者通过键人 help datefun 来查询。下面提供了 一 

些日期函数的例子。这些函数中所谓的“消逝天数”指自从1 9 60年1月1日起已经过 
了多少天。 

date( 
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2 


， s 2 [ ， y]) 就 Si 的消逝天数。忘:实际上是个任意格式的表示日期的字 

符串变量。可以应用月份，缩写为三个字母，或者用数字表 

示。也可以用年份表示，可以包含世纪、也可以不包含世 
纪;包括空格和标点也都允许。&是关于月 （ m ) 、日 （ d ) 、年 

([ 料] y ) 是如何在 s : 中排列顺序的定义。##为 Sl 中两位 
数年份所属的世纪，其默认格式为 19 y 。 

这个函数是为了使日期表达更方便。比如，键人 < a ( 
1960) 与直接键人1结果 一样。 

对应日期: n , d , y 的消逝天数。 

对应消逝日期 e 为相应月份的第几天。 


]an 


mdy(m ， d ， ir) 


day( e) 
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对应消逝日期 e 的月份。 

对应消逝日期 e 的年份。 

对应消逝日期 e 为相应周中的第几天。 

^•应消逝日期 e 为相应年份的第几天。 
对应消逝日期 e 为相应年份的第几周。 
对应消逝日期 e 为相应年份的第几季度。 
对应消逝日期 e 为相应年份的哪个半年。 


month (e) 
year(e) 
dow(e) 
doy( e) 
week(e) 
quarter(e) 
halfyear(e) 

另外，还有一些特殊函数也很有用，将其列在 下面： 

autocode ( x , n , xmin , xmax ) 根据 x 值形成分类变量：将 x 的值域 （ 即最小值 


至最大值 xmax ) 分成等距的 n 份，并求出 
各 X 值所在区间的上限。 

当评价 X 值时为“肯定”时返回 a 值，评价 x 值时 
为“否定”时返回 b 值。 比如： 


cond( x ， a ， b ) 


. generate y = cond( incl > inc2 , 
incl ， izic2 ) 


形成变量 y ， 其值取 incl 与 inc 2 中的最大值 

(假定无缺失值）。 

建立一个分类变量,将按排序后的数据分为尽量 
等规模的 X 个子样本。 

求 x 平截 ( truncate , 即删除其 W 缴部分)后的整数。 

求 ， x 2 ，...， x n 中的最大值。忽略其中缺失值。 

比如， max(3 +2,1) 将求得5。 

求 A ， x 2 ， . ..， x n 中的最小值。 

当 X 缺失时求得缺失值，当 X <%时求得％，当 X 

< X 2 时求得。 


group (x) 


trunc(x) 

(A ， x 2 ， 


) 




minCx, ， 

recode 


) 


) 


， x 2 ， 


以 Y 为单位对 x 做四舍五人。 
符号函 数：当 


round ( x , y ) 
sign(x) 


0 时得 -1， 当 
7>0时得+1。（当 X 缺失时返回缺失值) 
X 的移动合计，将缺失值作为0对待。 


0时得0，当 


total (x) 


字符串函数（这里不再描述）用于处理和评价字符串变量。请键人 help strfun 

查看字符串变量的全部清单。参考手册和《用户指南》中给岀了示例与这些以及其他函 
数的详细说明。 

如果需要，多重的函数、运算符和选择条件可以在一'个命令中组合起来。以上描述 
的函数和代数运算也可以用于其他不创建或修改数据变量的工作。命令 display 执行 
单一计算并且将结果显示在屏幕上。 比如： 

.display 2+3 


display loglO(10 A 83) 


83 


.display invttail(120,.025) 

2.1622305 


34.1/sqrt(975) 


★ 
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于是， display 可以作为屏幕显示的统计计算器来用。 

与计算器不同， display 、 generate 和 replace 可以直接得到 Stata 的统计结 
果。比如，假设我们要依据数据集 Canada 1 .dta 汇总失业率 统计： 


summarize 


unBmp 


Variable | 


Obs 


Std # Dev 

12 * 10909 4.250048 

在 summarize 之后， Stata 将平均数作为一个名为 r ( mean ) 的宏临时保存下来 

• display r(mean) 

12 .109091 


Mean 


Min 


Max 


unemp | 


11 


19.6 


我们可以使用这一结果来创建一个变量 unempDEV , 表示对平均数的离差 


( deviation ) 


- gen unempDEV 

(2 missing values generated) 

unemp unempDEV 


(mean) 


uiiemp 


suxnm 


Variable [ 


Obs 


Mean 


Std * Dev * 


Min 


Max 


unemp | 
unempDEV 


11 


12,10909 
4.33e-D8 


4.250048 

4.250048 -5,109091 


7 


19.6 

7.49091 


11 


Stata 还提供了另 一 个创建变量的命令， egen (表示是对 generate 命令的扩展， 

_ 

即 “extensions to generate ”） ，它有自己的一系列用于完成 generate 命令无法 

轻易完成的函数。这些函数包括计算现有变量或变量表达式的总和、最大值、最小值、中 

位数、四分位距、标准化分值或移动平均数等，依据这些计算来创建新变量。比如，下述 
命令创建了一个名为 


的新变量，它等于 x 的标准化（平均数为 0,方差为1 ) 


zscore 


分值 


td ( x ) 

再比如，下述命令创建了一个名为3叩的新变量，它等于每一观测案例在 
和^四个变量上的忽略了任何缺失值的行平均数。 


egen zscore 


x ， y ， 之 


egen 




为了创建一个名为 sum 的新变量，它等于每一观测案例在 x ， y ， z 和 w 四个变量上 
的合计，并将四个变量中的缺失值视为零， 键入： 

( x f y f 

下述命令创建一个名为 xrank 的新变量，它保持着与 x 取值相一致的排序 :对于 
取大值的观测案例 ， xrank =1 ;对于取第二大值的观测案例 ， xrank =2，如此等等。 


egen s 


[finm 


rowsum 


L：i 


X 


egen xrank = rank(x) 


通过键入 help egen 可以得到 egen 函数的完整清单，或者查阅有更多举例的参考 


手册 


教值和孛#串之同的格式转换 


数据集 


dta 包含一个字符串变量 p j ace 。 它还包含一个已经添加了取 


canada 2 
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值标签的分类变量， type 。 它们似乎都具有非数值的取值。 


canadaJ? , clea 

(Canadian dataset 2) 


use 


list place typ 


type 


place 


Canada 
Newfoundland 
Prince Edward Island 

Nova Scotia 
New Brunswick 


Nation 

Province 

Province 

Province 

Province 


2 


Quebec 

Ontario 

Manitoba 

Saskatchewan 

Alberta 


Province 

Province 

Province 

Province 

Province 


10 


British Columbia 

I Yukon 

Northwest Territories 


Province 
Territory | 
Territory 


ll 


12 


13 


其实，在标签之下， type 仍然是数值型变量，下面我们一增加 nolabel 选项之后就 


能看到 


list place typ 


nolabel 


place 


type 


Canada 

Newfoundland 

Prince Edward Island 

Nova Scotia 
New Brunswick 


3 


2 


3 


5 


Quebec 

Ontario 

Manitoba 

Saskatchewan 

Alberta 


8 


9 


10 


11 


British Columbia 

Yukon 

Northwest Territories 


12 


2 


13 


2 




字符串变量和添加了取值标签的数值型变量看起来很像，但是在分析中它们的表现 
却不同。对于字符串变量而言，大多数统计运算和代数关系都不能应用，因此我们可能 
想要在数据中同时包括反映同一信息的字符串变量和添加了取值标签的数值型变量。 
encode 命令可以依据字符串变量创建一个添加了取值标签的数值型变量。数字1被 

赋给字符串按字母顺序排在第一位的那个，随后是2，如此等等。下例中，我们依据字符 
串变量 Place 创建了一个名为 pJacenujn 的添加了取值标签的数值型 变量： 


encode place, gen (placenum) 


相反的转换也是可 能的: decode 命令可以使用添加了取值标签的数值型变量的值 
创建字符串变量。这里,我们根据数值型变量 type 创建字符串变量 typestr : 

• decode type, gen( types tr) 

把数据列出来就可以看到，新的数值型变量 placenum 和字符串变量 typestr 与 
原先的变量在显示上 一样： 


















Canada 

Newfoundland 

Prince Edward Island 

Nova Scotia 

New Brunswick 


3.00000000000000e + 00 

6,00000000000000e + 00 
1 .OOOOOOOOOOOOOOe 十 01 
8.00000000000000e + 00 

5-OOOOOOOOOOOOOOe+OO 


3 


Nation 

Province 

Province 

Province 

Province 


但是，如果加上 nolabel 选项的话，差异就显现出来了。 Stata 是将 placenum 和 
type 当作数值型变量对待的。 

list place placBnum typ typBstr 


nolabel 


f 


place 


placenum 


type 


typest r 


I — 




11 


British Columbia 

Yukon 

13. I Northwest Territories 


British Columbia 

Yukon 

Northwest Territories 


Province 

Territory 

Territory 


Province 

Territory 

Territory 


12 


_ + 




6 


Quebec 

Ontario 

Manitoba 

Saskatchewan 

Alberta 


1 .lOOOOOOOOOOOOOe+Ol 

9.00000000000000e+00 

4.00000000000000e+00 

1 _20000000000000e + 01 

1.00000000000000e + 00 


Province 

Province 

Province 

Province 

Province 


8 


9 


1 


10 


r 


-■ - J— ■ ■ 


11 


British Columbia 

Yukon 

Northwest Territories 


2 -00000000000000e + 00 

1.30000000000000e + 01 
7.00000000000000e + 00 


Province | 
Territory 

Territory | 


12 


2 


13 


2 


+ — 


+ 




诸如平均数和标准差等统计分析只能应用于数值型变量。就计算的目的而言，有无 
数值型变量的标签（对计算结果）无关紧要。 ’ 


summarize 


place placen 


yp typestr 


Variable | 


Obs 


Mean 


Std * Dev 


Max 


place 
placenum | 

type I 
typestr 


13 


3,89444 

6304252 


1 


13 


13 


1.307692 




0 


有时，我们会遇到字符串变量的取值全部或绝大部分都为数字的情况。为了将这些 

字符取值转换成与其相对应的数字，可以使用 real 函数。比如，尽管下述 siblings 
变量仍属于字符串变量，其实只有 “4 或更多 ，’（4 
一个数字加以表示。 


more ) 这一种取值可能不大容易用 


or 


describe siblings 

siblings 


str 9 


%9s 


Number of 


siblings (string) 


list 


6 


Quebec 

Ontario 

Manitoba 

Saskatchewan 

Alberta 


Quebec 
Ontario 
Manitoba 

Saskatchewan 

Alberta 


Province 

Province 

Province 

Province 

Province 


Province 

Province 

Province 

Province 

Province 


7 


8 


10 


Canada 

Newfoundland 

Prince Edward Island 

Nova Scotia 
New Brunswick 


Canada 

Newfoundland 

Prince Edward Island 

Nova Scotia 
New Brunswick 


Nation 

Province 

Province 

Province 

Province 


Nation 

Province 

Province 

Province 

Province 


2 , 


3 


5 


32 I 应用 STATA 做统计分析 


list place pi 


yp typestr 


cen 


place 


placenum 


type 


typestr 












12 3 4 5 





























5• I 4 or 


more 


s ibnum 


siblings 


Province r 

territory or 

nation 


Cum 


Freq 


Percent 


76-92 
92 < 31 
100.00 


76.92 
15,38 
7,69 


10 


Province 
Territory I 

Nation 


100.00 


13 


Total 


tabulate yp 零 generate( yp ) 


考虑到某些需要，我们可能想将这一多分类的变量重新表达成一组编码分为 1 或0 

的二分变量或“虚拟变量 ” （dummy variables )。 如果加上 generate 选项的话， 

tabulate 可以自动创建一组虚拟变量。在下面的例子中，形成了一组名为 typel 、 
type 2 和 type 3 的变量，每一个变量代表 type 变量三类中的 一类： 


Province/ 
territory or 
nation I 


Cum 


Percent 


Freq 


76,92 

92.31 
100.00 


76.92 
15 - 38 

7,69 


10 


Province 
Territory I 

Nation 


100.00 


13 


Total 



destring 命令提供了将字符串变量转换成数值型变量的更灵活的方法。对上面 
的例子，我们可以通过键人下述命令做到同样的事情： 


de tring siblings f generate( sibnum) force 

有关该命令和选项的信息，请见 help destring 。 


创建軒的分类支量和走存史量 


上一节说明了如何创建一个名为 type 的分类变量来对加拿大数据中的领域、省份 
和全国案例加以区分。用户可以采用许多其他方法来创建分类或定序变量。本节将给 

出一些示例。 

type 变量包括三个 类别： 


- real( siblings) 


• generate sibn 

(1 missing value generated) 


新变量 sibnum 属于数值型变量，当 siblings 为“ 4 或更多时，其取值为缺失 


list 
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十 


+ 一 


siblings 


2 


2 


A or more 


5 










0 12 3 


0 12 3 


12 3 4 
















British Columbia 

[ Yukon 

Northwest Territories 
+ 一 


Province 

Territory 

Territory 

















Variable 


Obs 


Mean 


Std. Dev 


Max 


将分类变量的信息重新表达成一组虚拟变量并不会出现信息 损失； 本例中，由 
typel 到 type 3 共同准确地提供了与 type 本身同样多的信息。有时候，尽管会造成信 
息的大量损失，分析人员还是选择将测量型变量转换为分类或定序的格式。比如， 

dta 数据中的 unemp 变量提供了失业率测量。排除数据中的加拿大自身之 
后，我们看到 unemp 的分布在7 %到19 .6%，平均数为12 


canada 2 


26 




O 


suraman 


unBmp x type 


unemp 


10 


12.26 


4 * 44877 


7 


19.6 


在这一意义上，数据中的加拿大案例成为一种干扰，因此我们将它清除 


drop 


yp - 

( 1 observation deleted) 


用两条命令来创建一个名为 un emp 2 的虚拟变 量：当 unemp 低于平均水平 
(12 ， 26 )时，令 uiie / np 2 等于 0; 当 une/np 等于或高于平均水平时，令 U nemp 2 等于 1 ; 
而当 unemp 为缺失值时，令 emp 2 也为缺失值。在读到第二条命令时，请记住 ’ 

的排序和关系运算符将缺失值作为极大的数字对待。 


Stata 


_ generate unemp 2 一 

(7 missing value 


unemp <1 .26 


generated) 


s 


6 . 


Quebec 

Ontario 

Manitoba 
Saskatchewan 

Alberta 


Province 

Province 

Province 

Province 

Province 


0 


0 


7 


0 


8 • 


9. 


0 


10 


0 


0 


Canada 
Newfoundland 
Prince Edward Island 

Nova Scotia 
New Brunswick 


Nation 

Province 

Province 

Province 

Province 


0 


0 


2 • 


0 


3, 


0 


4 • 


0 


0 


5 . 


0 


Sorted 


by: 


dataset has changed 


Note 


since last saved 


list place yp typ l-type3 


place 


type typel type2 


type3 


34 I 应用 STATA 做统汁分析 


describe 


Contains data from C : \data\canada2.dta 
obs 

var s 

size 


13 


Canadian dataset 2 
3 Jul 2005 10:48 


10 


637 (99* 9% of memory free) 


storage display 
type format 


value 

label 


variable 


name 


variable label 


place 

pop 

unemp 


str21 %21s 
float % 9 . Og 
float % 9 . Oq 


Place 

Population in 1000s, 1995 

% 15+ population unemployed, 
1995 


name 


ml i f e 
flife 


float $ 9 , Og 
float % 9 . Og 
float % 9 . 

byte 

byte 
byte 
byte 


Male life expectancy 

Female life 

Female-male 
Province 


years 


expectancy years 
gap life expectancy 
territory or nation 


0g 


gap 


type 

typel 

type2 

type3 


%9 . Og 
%8 . Og 

%8 * Og 
%8 • Og 


typelbl 


type^-Provinee 


type==Territory 

type==Nation 

















12 3 

i~t 1 i — i 


loo 
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replace unBmp2 = 1 if unsmp >= 12.26 

(5 real changes made) 


unsmp < 


我们可能想就某个测量变量的取值进行分组，从而创建一个有序的分类变量，即定 
序变量。 autocode 函数(请参见本章前面的“使用函数”一节）提供了变量的自动分组 
功能。为了创建一个新的定序变量 unemp 3 ，使它将 unemp 从5到20的取值区间分成 
等宽的三组，请 键人： 


• generate unemp3 = autocode( unemp f 

(2 missing values generated) 


, 20 ) 


列出该数据，可以看到新的虚拟变量 （ unemp 2 ) 和定序变量 （ unejnp 2 ) 是如何与原 

始测量变量 unemp 的取值相对应的。 


list place unsmp unemp 2 unemp3 


place 


unemp2 


unemp3 


unemp 


Newfoundland 
Prince Edward Island 

Nova Scotia 
New Brunswick 

Quebec 


19. 6 
19.1 


20 


20 


15 


15 


13-2 


15 


Ontario 

Manitoba 

Saskatchewan 

Alberta 
British Columbia 


10 


10 


10 


10 


10 


10 


11 


Yukon 

Northwest Territories 


12 


刚才提到的两种策略都恰当地处理了缺失值，因此在 unemp 上为缺失值的那些案 
例在由 imeinp 转换的变量也为缺失值。如果数据中没有缺失值，另外一种可能的转换 

方法 更好。 为了说明这点，我们先要删除 Yukon 和 Northwest 这两个 地区： 


• drop ±f unemp >=. 

{2 observations deleted) 


诸如 unemp > = .等表示大于等于的不等式除了选择默认缺失码“之外，还会选择所 
有由用户定义的缺失码。请键入 help missing 查看细节。 

删除完具有缺失值的观测案例，我们现在可以使用 group 函数来创建一个定序变 
量,该变量不是像 autocode 那样为近似等宽的分组，而是为近似等规模的分组。我们 
分两步来实现这点。第一，基于关注的变量对数据进行排序（假定没有缺失值）。第二， 
使用 group(#) 函数创建一个新变量，其中的#表示期望的分组数目。下述例子将加拿 

大的10个省份分为5个组。 


sort uriGmp 

generate unempS = group(5) 

list place unBmp un^mp2 unemp3 unempS 
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place 


unemp2 unemp3 unemp5 


uneimp 


Saskatchewan 

Alberta 

Manitoba 
Ontario 
British Columbia 


0 


10 


0 


10 


3 


8.5 


0 


10 


2 


9.3 


10 


2 


5 


9.8 


0 


10 


3 


6 


Quebec 
New Brunswick 
Nova Scotia 
Prince Edward Island 

Newfoundland 


13.2 
13,8 
13. 9 
19.1 
19,6 


15 


3 


15 


4 


8 


15 


4 


9 


20 


5 


10 ■ 


1 


20 


5 


另一差别在于, autocode 分配的数值等于每一区间的上界，而 group 只是简单地 
将第一组赋值为1，第二组为2，如此等等。 


柘注支量下椋 


当 Stata 有数据在内存中时，它也定义了描述这些数据的系统变量。比如， j 表示 
观测案例总数。表示观测案例号:一13 =1表示第一条观测案例，_17 =2表示第二条观 
测案例，如此等等，直到最后一条观测案例 （_n =_ N ) 0 如果我们键人如下命令，就会创 

建一个新变量 caselD , 其值等于前面已经排序过的每一条观测案例的序号。 


generate caselD = 


如果按其他方式对数据排序将会改变每一观测案例的值，但是其 

值将保持不变。因此，如果我们以不同方式对数据排序，以后再键人下述命令就能恢复 
原来的 顺序： 


的取 


caselD 


sort caselD 


创建并保存数据集形成初期观测案例的唯一性顺序识别码能够大大便利以后的数 


据管理。 


我们能够对变量名添加下标来指定独特的观测案例的号码。比如，数据集 

中的第 6 条观测案例（如果我们没有删除任何记录或者没有进行重新排 


canadal ,dta 

序）是 Quebec 。 因此， pop [ 6 ] 指的是 Quebec 的人口数，7 334千人 


• display pop [6] 

7334 .2002 

类似地， pop [ l 2 ] 便是 Yukon 的人口数。 

• display pop [12] 


30 . 1 


当我们的数据构成一个序列时，加注下标和 _ n 系统变量具有另外的好处。比如，如 
果我们以某支股票每天的股市价格作为名为 price 的变量，那么 price 或者等价的 
price [一 n ] 表示第 n 次观测或第 n 天的价格， price[_ n -l ] 表示前一天的价格，而 

1 ] 则表本后一天的价格。因此，我们可以定义一个新变量 difprice ， 它等 


pnce\_n + 


于自前一天来的价格 变化: 


generate dlfprice = pri 


一 price [ n -1] 


MS 


有关时向序列分析的第 13 章会讨论这一主题 
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导入其他程序的教接 


前面几节介绍了如何直接在数据编辑器中用键盘录入和编辑数据。如果我们的数 
据保存在恰当编排格式的电子表格中，有一些捷径可以加快这一工作过程:我们可以直 
接拷贝电子表格中的多列数据块（不包含列标签），然后粘贴到 Stata 的数据编辑器中。 
这需要很小心，有时甚至需要先做试验，因为 Stata 会将任何包含了非数字取值的列作 
为字符串变量处理。文本或文字处理文档中单独的一列数据（变量）也可以粘贴到 
Stata 中。一旦数据被成功地粘贴到编辑器的各列中，就可以采用常规方式来指定变量 
名、标签等。 

这些数据编辑器方法都快捷而简单,但是对于大型数据而言，就得有专门工具来直 
接处理由其他程序创建的数据文件。这些文件大体上可分成两类 :一种 是原始数据的 
ASCII ( 文本）文件，这类数据可以采用恰当的 Stata 命令读人到 Stata 中； 另一种是 

系统文件，这类数据必须通过特定的第三方程序转换成 Stata 格式后 Stata 才能 
读人。 


为了示范读人 ASCII 文件的方法，我们回到表 2.1 的加拿大数据。假如不是将这 
些数据直接键入 Stata 数据编辑器，而是先将它们键人到其他文字处理器中，并且每个 
值之间至少空一格。如果字符串内包含空格，就必须加上双引号，比如， 


Prince 


Edward Island ”。 对于其他的字符型取值，引号可有可无。文字处理器可以将文档存 

为 ASCII ( 文本)格式文件，这种格式比一般文字处理软件的存取格式更简单、而且更为 
通用。因此，我们可以创建一个如下形式的名为 Canada 


的 ASCII 文件 


raw 


"Canada.， 29606.1 10.6 75.1 81.1 

Newfoundland 11 575.4 19,6 73.9 79.8 

Prince Edward Island" 136.1 19.1 74.8 81.3 

Nova Scotia 1 ， 937.8 13.9 74*2 80 • 4 

"New Brunswick" 760.1 13.8 74.8 80.6 

Quebec" 7334.2 13.2 74.5 81,2 

11100.3 9.3 75.5 81.1 


Tf 


VV 


VI 


IV 


Ontario 


If 


"Manitoba" 1137,5 8.5 75 80.8 

"Saskatchewan” 1015.6 7 75.2 81.8 

11 Alberta" 2747 8.4 75,5 81.4 

"British Columbia.， 3766 9.8 75,8 81.4 

"Yukon，' 30.1 
"Northwest Territories 


71,3 80,4 

65.8 


70.2 78 

特别需要注意，在最后两行中，要采用英文句点，而不是空格来表示 Yukon 和 
Northwest 地区的缺失值。如果数据集原本应当有五个变量，那么每一观测案例则必 
须正好有五个值(包括表示缺失值的句点）。 

命令 infile 能够把诸如 Canada . raw 这样的 ASCII 数据读人到内存中，这些数 

据值是由一个或多个分隔符分隔开的，分隔符可以采用空格、制表符、换行符（包括囱车、 
换行或同时回车换行）以及英文逗号。这个命令的基本格式为（其中 variable-list 
代表变量清 单）： 


infile varxablB-list using filenamB 


raw 


当全部为数值型变量时，变量清单可以省略，此时 Stata 会依次将变量命名为 
varl 、 var 2 、 var 3 等。但是，我们通常可能想给每个变量取一个与众不同的名称。有 
时，我们还需要区别那些字符串变量。对于 Canada . raw 的 infile 命令可 以是： 
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inf He s tr30 place pop unBmp mlife flife 

(13 observations read) 


ing Canada 


,clear 


infile 的变量清单指定了变量在数据文件中出现的次序。 clear 选项指定在读 
入新文件之前将内存中的所有当前数据删除。 

如果数据中包含字符串变量，那么每一字符串变量名称前面都要加上 str# 进行说 

明。比如,上述命令中的 str30 就是告诉 Stata 下一个命名变量 （ place ) 是一个长度 
为30个字符的字符串变量。实际上，没有任何一个加拿大的地区名称长度超过了 21个 
字符，但是我们不需要事先知道这点。通常为了方便，总是高估字符串变量的长度。因 

此，一旦数据已读入到内存中，使用 compress 来确保没有变量多占用了所需的空间。 
compress 命令会自动改变所有变量以达到最有效的内存占用存储类型。 


.compress 

place was str 30 now str21 


.describe 

Contains data 
obs : 
vars : 
size: 


13 


533 (99-9% of memory free) 


storage display 
variable name type format 


value 

label 


variable label 


place 

pop 

unemp 


str21 %21s 

float % 9 
float %9.Og 


Og 


■ 


mlif e 

flife 


float %9 . Og 
float %9 


Og 


Sorted by 


现在，我们可以按如前所述的方法进一步给变量和数据加上标签 D 在任何情况下, 

canadaO , replace) 命令都将把 Stata 格式的新数据存成 

名为 canadaO .dta 文件。最初的原始数据文件 Canada 
磁盘上。 


(或 


save canadaO 


save 


仍然原封不动地保存在 


raw 


如果我们的数据中包含了一些非数量值（比如，“男”和“女”），我们又想将其转换为 

带标签的数值型变量加以保存，那么增加 automatic 选项可以实现这一点。比如，我们 
可以用以下 infile 命令读人原始调查 数据： 


mfile gender age income vote using survey. raw f automatic 


电子表格和数据库程序一般都写出每一行只有一条记录且采用制表符或英文逗号 
分隔的 ASCII 文件。为了将这种数据读人 Stata ， 需要使用 insheet 命令。其一般的 

语法和 iiifile 类似，同时带有告诉 Stata 这一数据的分隔符是制表符、逗号还是其他 
字符的选项。比如，假设数据是以制表符分隔，命 令为： 


insheet variable-lis 


usxng filename 


tab 




或者，假设数据以逗号分隔，并且文件的第一行为变量名称(也以逗号分隔），就键入 


xnsheet variable-list using fileiiame 


raw f comma 




使用 insheet 命令时，我们不需要专门识别字符串变量。如果我们没有纳入变量 

清单并且数据文件的第一行也没有包含变量名称， Stata 会自动指定变量名称为 

var3 等。如果 ascii 文件中的一些取值并不是由 insheet 命令中指定的分隔 
符分隔的，数据读人就会出错。 


varl 


var 2 





764169 

743000 

863748 

896437 

861573 


2406 

2524 

2513 

2535 


6* I 1991 


793000 1262 


wood 


I year 


CPI 


mines 


更为复杂的固定列位格式数瑪可能需要一个数据“字典”。数据字典可以简单明了， 

但是它们提供了许多可能的选择。键人 help infix 或者 help infile2 获取这些命 
令的简要描述。更多的示例和解释，请咨询《用户指南》和参考手册。 Stata 也可以加 

载、输出或者查看来自 ODBC (Open Database Connectivity ) 资源的 数据； 请参见 

help odbc 0 

如果我们需要将数据从 Stata 输出到其他的非 ODBC 程序，那该怎么办？ outfile 
命令可将 ASCI 工文件写到磁盘上。下述命令将创建一个名为 canada 6 .raw 的以空格 
为分隔符的 ASCII 文件，该文件包含了内存中的所有数据 信息： 


outfile 


ing canadB6 


上述的 infile 、 insheet 、 infix 和 outfile 命令都针对以 ASCII 文件保存的 

原始数据进行操作。另一个非常快捷的办法是从 Stata 数据浏览器中拷贝数据并直接 
将其粘贴到诸如 Excel 等电子数据表中。但是，最好的选择往往还是在不同的数据表、 
数据库或统计程序存储的特殊系统文件之间直接进行数据转换。有好几种第三方程序 


list 


这些数据是关于加拿大纽芬兰省 （ Newfoundland ) 的自然资源产量的信息。四个变 
量占用了固定的列位置 :1 〜4列是年份(1986_"1991);5〜8列为以千立方米度量的森林 
资源量 （2408 …缺 失）； 9〜14列为以千美元度量的矿山资源量 （764169 … 793000 ); 
15〜18列为相对于1986年的消费者价格指数（1000-1262)。请注意，不同于采用 

空格或制表符作为分隔符的文件，在固定列位格式的数据中，空白表示缺失值，并且这一 

原始数据不含小数。为了把 nfresour 

的 列位： 


读人到 Stata 中，我们指定每个变量所占 


raw 


infix year 


wood -8 mines -14 CPI 1 -18 

ing fresour.ra , clear 

(6 observations read) 
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data ) 文件可以是“固定列”格式的，其中各值之 


其他统计软件创建的粗数据 （ 

间根本不需要进行分隔，但是必须占事先确定的列位。 infile 命令和更为专门的 

infix 命令都允许 Stata 读取此类数据文件。要么在命令语法本身中，要么在一个以 
独立文件存在或者作为数据文件第一部分的“数据字典”中，我们必须准确地指定应当如 
何逐列读取这些数据。 


raw 


这里有一个简单的例子。数据保存在一个名为 nfresour.raw 的 ASCII 文件中 


198624087641691000 

198725247430001044 

198825138637481086 

198925358964371140 

1990 

1991 


8615731195 

7930001262 












0 4 6 0 5 
0 4 8 4 9 


8 8 8 8 9 

9 9 9 9 9 


鬌 

5 







float 

float 


Year 

Population 

Number of people unemployed 


year 

pop 

jobless 






1 . I 1985 

2. I 1986 

3. I 1987 

4. I 1988 

5. I 1989 


530700 

580200 

568200 

568000 

570000 


Sorted by 


list 


year 


pop 


Sorted by 


Contains data from C : \data\newf2,dta 
obs 
vars 
size 


Newfoundland 1990-95 
3 Jul 2005 10:49 


3 


84 (99.9% of memory free) 


storage display 
variable name type format 


value 

label 


variable label 


文件 newf 2 . dta 包含了随后若干年的人口数和失业人数信息 


• use rbw£2 

{Newfoundland 1 990-95) 

• describe 


%9 . Og 


Year 

Population 


year 

pop 


float % 9 


og 


* 


storage display 
type format 


value 

label 


variable 


variable label 


name 
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能够做这种翻译。比如， Stat / Transfer 可以在许多不同格式数据之间进行转换，包 

括 dBASE 、 Excel 、 FoxPro 、 Gauss 、 JMP 、 Lotus 、 MATLAB 、 Minitab 、 OSIRIS 

_ 

Paradox 、 S - Plus 、 SAS 、 SPSS、SYSTAT 和 Stata 0 该软件通过 Stata 公司 （www 

stata . com ) 或者从其生产者 Circle Systems ( www.stattransfer . com ) 那里可 

以获得。对于在多程序环境中工作或需要与同事交换数据的分析人员而言，这种转换程 
序提供了不可或缺的工具。 




合并两个 成多个 Stata 文件 


我们可以采用两种一般方法来合并 Stata 数 据集： append ( 附加）第二个包含其 

他观测案例的数 据集; 或者和其他包含新变量或取值的数据文件进行 merge (合并）。 
为保持与本章加拿大例子相一致，我们将使用有关纽芬兰省 ( Newfoundland ) 的数据来 

示范这些操作程序。文件 newfl . dta 记录了纽芬兰省从 1985 年到 1989 年的人 


口数。 


• use newfl f clear 

(Newfoundland 1985-89) 

describe 


Contains data from C : \data\newf1,dta 

obs : 

vars : 

size : 


5 


Newfoundland 1985-89 
3 Jul 2005 10:49 


2 


50 (99,9% of memory free) 


g 

o 


o o 

'* 

9 9 9 
% % % 




















575449 

580700 

580200 

568200 

568000 


573400 

573500 

575600 

584400 

532400 


42000 

45000 

49000 

49000 

50000 


11 * I 1989 570000 


jobless 


year 


pop 


573400 
573500 
575 600 
584400 
582400 


42000 

45000 

49000 

49000 

50000 


1 . I 1990 
2. I 1991 
3 * I 1992 

4. I 1993 

5. I 1994 


list 


11 


1995 575449 


4 


save newf3 


通过将另一个包含新观测案例(行）的文件添加到一个文件的底部, append 可被看 
作是将该文件(也就是，内存中的数据集）加长。从最简单的形式上看，通过将另一个文 
件添加到一个文件的右边从而增加新变量（列） ， merge 相当于将该文件“加宽”。比 
如，数据集 newf4 .dta 进一步包含纽芬兰省的时间序列信息80—1994年期间的出 

生数和离婚数。因此其中有一些观测案例以及一个变量 （ year ) 和我们前面的数据集 


list 


j obless 


I year 


pop 


1985 

1986 

1987 

1988 

1989 


580700 

580200 

568200 

568000 

570000 


2 


3 


5 


因为变量 jobless 出现在 newf2 (1990—1995 年）但没有出现在 newfl 中，因 

此合并后的数据中该变量从1985年到1989年各年份为缺失值。我们现在可以将这些 
观测案例按照时间先后排序并把该合并数据另存成名为 newf3 .dta 的新 文件： 


j obless 


year 


pop 


42000 

45000 

49000 

49000 

50000 


573400 

573500 

575600 

584400 

582400 


1. I 1990 

2. I 1991 

3. I 1992 

4. I 1993 

1994 


5 


6. I 1995 575449 


- h 


为了合并这两个数据，考虑到 newf2 . dta 已经读人内存中，我们使用 append 


命令 


append using newfl 


sort yea 
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list 



5 5 6 7 8 

9 8 8 8 8 


0 12 3 4 
9 9 9 9 9 























births 


divorces 


10332 

11310 

9173 

9630 

8560 


555 
569 
625 I 
711 

590 


8080 

8320 

7656 

7396 

7996 


561 

610 I 
1002 
884 I 
981 


year 


year 

births 

divorces 

pop 

j obless 
merge 


float 

float 

byte 


list 


Year 

Number of births 

Number of divorces 
Population 

Number of people unemployed 


我们想将和 newf4 进行合并，并根据变量 year 对同一年份的观测案例进 
行匹配。为了做到这点，两个数据集都必须根据索引变量 （index variable )( 本例中 
为 year) 进行排序。我们已经在保存 newf3 .dta 之前执行过命令 sort year 命令， 

因此现在只需对 newf 4 .dta 做同样的事情。然后，指定 year 作为匹配时的索引变量， 
我们就可以将两个数据加以合并。 


sort year 


merge year using newf3 

I 

describe 


Contains data from newf4.dta 
obs : 

vars : 
size ： 


16 


Newfoundland 1980-94 
3 Jul 2005 10:49 


6 


304 (99.9% of memory free) 


storage display 
variable name type format 


value 

label 


variable label 


Sorted by 


Sorted by 

Note 


dataset has changed since last saved 


Year 

Number of births 
Number of divorces 



year 

births 

divorces 


storage display 
variable name type format 


value 

label 


variable label 
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newf3 .dta 是共同的，但它还包含两个在 newf3 .dta 中没有出现的新变量。 


use newf 4 

(Newfoundland 1980- 94) 

.de cribe 


Contains data from C : \data\newf4.dta 
obs : 
vars : 
size ： 


15 


Newfoundland 1980-94 
3 Jul 2005 10:49 


1 5 0 (99.9% of memory free) 


0 12 3 4 
8 8 8 8 8 
9 9 9 9 9 


5 6 7 8 9 
8 8 8 8 8 
9 9 9 9 9 


12 3 4 5 


6 7 8 9 0 




+ 






3 2 7 0 3 
7 16 3 3 
9 9 8 9 9 


4-990 5 

5 2 8 6 9 
3 9 6 3 2 
7 6 6 6 6 


0 12 3 4 
9 9 9 9 9 


9 9 9 9 9 




12 3 4 5 


— -111 


g g - gg g g 

o o o o o o 


9 9 9 

% % % 


9 9 8 
% % % 


9 9 9 

o o o 


9 9 9 
% % % 


t t t 
n n n 





















8080 

8320 

7656 
73 96 
7996 


1985 

1986 

1987 

1988 
198 9 


573400 

912 573500 
867 575600 
930 584400 
933 582400 


42000 

45000 

49000 

49000 

50000 


I 1990 

1991 

1992 

1993 

1994 


7354 

6929 

6689 

6360 

6295 


12 


13 


14 


15 


575449 


16* I 1995 


在本例中，我们只是用 merge 按观测案例的匹配将新变量添加到我们的数据中。 

在默认状态下，当两个数据集存在相同的变量时，“主” （ master ) 数据（即内存中的文 

件）中的那些被保留下来，“调用” （ using ) 数据中的那些则被忽略。但是，: merge 命令 

有几个选项可以更改这一默认状态。以下命令将允许主数据中出现的缺失值由调用数 
据（即 newf 5 . dta ) 中相应的非缺失值进行替换。 


merge year using newf5 f update 


或者，用以下命令可使主数据中的任何取值如与调用数据存在不同时将由后者的非缺失 
值进行 替换： 


merge year using newf5 r update replace 


假如索引变量的某种取值在主数据中出现多次，比如， 1990 年出现两次，那么调用 
数据中 year 取值为1990年的观测案例将会与主干数据中每一条 year 为1990年的 

观测案例进行匹配。用户可以利用这种能力来实现许多意图，比如，将每个病人的背景 

信息与其每次不同的医生就诊的信息加以合并。尽管 merge 使得此类和许多其他的数 

据管理任务变得很简单，但是分析人员应当认真查看所得结果以确认该命令所得结果正 
是所想要的。 

作为一种诊断辅助， merge 会自动创建一个名为 jnerge 的新变量。除非设定了 

update ， 否则 一 merge 编码的含义 如下： 

1 .观测案例只来自于主数据。 

2 .观测案例只来自于调用数据。 

3 .观测案例同时来自于主数据和调用数据（如果出现不同，忽略调用数据值）。如果 
设定了 update 选项， _ jnergs 编码会指 7 K 发生了什么： 

1 .观测案例只来自于主数据。 

2 •观测案例只来自于调用数据。 

3 .观测案例同时来自于主数据和调用数据，且主数据和调用数据一致。 

4.观测案例同时来自于主数据和_用数据，如果主数据为缺失值，则被更新。 

p 

5 .观测案例同时来自于主数据和调用数据，如果出现不同，主数据将被替换。 

在执行另一 merge 操作之前，必须删除该变量或改变该变量的名称。 比如： 


数据管理 I 43 


list 


+ 


jobless 


births 


divorces 


pop 


merge 


year 


10332 

11310 

9173 

9630 

8560 


555 


1980 

1981 

1982 

1983 

1984 


569 


625 


711 


590 


o o o o o 
o o o o o 

7 2 2 0 0 
0 0 8 8 0 

8 8 6 6 7 
5 5 5 5 5 


6 10 8 8 
5 6 0 8 9 












Eastern Canadian province 
Pop. gain in 1000s, 1991-92 
Pop. gain in 1000s, 1992 - 93 

Pop. gain in 1000s, 1993-94 
Pop. gain in 1000s, 1994-95 


provinc2 


rovmc2 

row92 

row93 

row94 

row95 


byte 

float 

float 

float 

float 


storage display 
variable name type format 


value 

label 


variable labe1 


growthl, clear 

(Eastern Canada growth) 


use 


describe 


Contains data from C : \data\growthl,dta 

obs 
vars 
size 


5 


Eastern Canada growth 
3 Jul 2005 10:48 


5 


105 (99, 9% of memory free) 


44 I 应用 STATA 做统汁分析 


drop merge 


或者， 


merge mergel 


rename 


我们可以用一个 merge 命令来合并多个数据 D 比如，如果从 newf 5 .dta 到 newfS . dta 为 

四个数据集,每一个都根据变量 year 进行了排序，那么将这四个数据合并到主数据中的命 
令 如下： 


ing newf5 new£6 neirjf 7 newf8 r update replace 


merge year 


其他的 merge 选项还包括核对合并变量的取值是否唯一和指定哪些变量保留在最终数 
据中。具体细节请键入 help merge 进行査询。 


教接的转置、支换或合拆 


数据集创建起来之后，我们可能发现该数据的结构对于某些分析目的而言是错误 
的。很幸运，有几条命令方便了数据结构的改变。我们将使用加拿大五个东部省份近年 
来的人口增长数据 （grcwtM . dta ) 来对此做示范。和前面的例子不同，这些数据中的 
省份名称由数值型变量表示，并对变量编制了最多8个字符组成的取值标签。 


list 


provinc2 


grow92 grow93 grow94 grow95 


1. I New Brun 

2 - t Newfound 

3. I Nova Sco 

4 , I Ontario 

Quebec 


10 


2,5 


2.2 


2.4 


5 


-5,8 


12.1 
174 . 9 

80. 6 


5.8 


3.9 


16 9,1 

77.4 


12CK 9 
48.5 


163.9 

47*1 


5 


在这一数据中，每年的人口增长被分别作为变量加以存储。我们可以分析各年人口 
增长平均数或方差的变化。但是这一给定的数据结构却使 Stata 不能轻易地画出人口 

增长对年份的简单时间标绘图，也不能计算两个省（如 New Brunswick 和 

_ 

Newfoundland ) 人口增长之间的相关关系。尽管这个数据已经包含了所有必要的信 
息，但是上述分析却要求不同的数据结构。 

简单的数据结构重组涉及变量和观测案例的转置。实际上，就是使数据中的行变成 































8 9 9 9 9 
% % % % % 

















1 * 0000 
0.6204 
0,8049 


1.0000 
0.6765 


1.0000 


1,0000 
0,8058 
0 ■ 9742 
0.5070 
0.6526 


vl 


v2 


v3 


v4 


v5 


(obs=4) 


vl 


v2 


v3 


v4 


v5 


最强的相关在临海的新不伦瑞克省 （New Brunswick ， 即 vl ) 和新斯科舍省 （Nova 

Scotia, 即 v3 ) 的增长之间: r = 0_974 2 。 纽芬兰省 (Newfoundland, 即 v2 ) 和安大略 

省 （ Ontario ，即 ) 的人口增长之间的相关要更弱得多 : r = 0.4 80 3。 

更为复杂的数据结构转换可能需要通过 reshape (改变形状)命令。该命令可以在 
被称作“宽” （ wide ) 和“长 ”（ long ) 的两种基本格式之间进行数据转换。数据集 
growthl . dta 最初为宽格式。 


growthl f clear 

(Eastern Canada growth) 


use 


list 


2 / 


correlate vl~v 


in 


在转置中变量取值标签会丢失，因此转置后数据中的省份只是由相应的数字来指示 

(1 = New Brunswick ，2 = Newfoundland, 等等）。每 一 列中第二到最后 一 个数值为 

该省的各年人口增量，以千人为单位。因此，变量 Vl 第一行中的数值为省份识别码 （1 

就代表新不伦瑞克省 ， New Brunswick ) ，这个省从1992年到1995年的人口增长数分 

别在该变量的第二行到第五行。比如，通过‘键入 correlate 命令和 in /5( 第二到第 
五条观测案例）这一选择条件，我们现在可以计算不同省份人口增长之间的相 关了： 


2 


3 


5 


provincz 

grow92 

grow93 

grow94 

grow95 


4 


80 - 6 

77.4 

48.5 

47.1 


10 4-5 12-1 174.9 

169.1 

3 - 5 120.9 

2 .4 -5*8 3.9 163.9 


2 


2.5 


3 


-3 


2.2 


4 


5 


Sorted by : 

Note : 


dataset has changed since last saved 


list 


v5 


vl 


v2 


v3 


v4 


varname 


float 

float 

float 

float 
float 
s tr 8 


arname 







storage display 
variable name type format 


value 

label 


variabl 


abel 
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列，反之亦然。这可以通过 xpose 命令来实现。这一命令要求必须加上 clear 选项， 
因为它总是会从内存中清除当前的数据 o 增加 varname 选项可在转置后的数据中创建 
一 个附加的变量 （ 被命名 S _ varname ) ，用以包含作为字符串的原始变量名。 


xpose, clear varname 
describe 


Contains data 
obs : 
vars : 

size : 


5 


6 


16 0 (99 . 9% of memory free) 


0 8 3 2 
0 7 0 6 

0 9 8 3 
0 8 4 9 


g g g g g 


9 9 9 9 9 9 
% % % % % % 
















Quebec 

Quebec 

Quebec 

Quebec 


13 


Ontario 

Ontario 

Ontario 

Ontario 


14 


15 


16 


New Brun 
New Brun 
New Brun 
New Brun 


Nova Sco 
Nova Sco 
Nova Sco 
Nova Sco 


92 


12 . 1 


93 


5.8 


94 


3.5 


95 


5 


Newfound 

Newfound 

Newfound 

Newfound 


6 


8 


,label data "Eastern Canadian growth--long 

• label variable grow 1T Population growth 
.save growth2 

file C:\data\growth2.dta saved 


IV 


1000 s 1 ， 


x 


provinc2 


year 


grow 


上述 reshape 命令以表明我们要将数据转换成 long (长）格式开头。接着，它把 

即将创建的新变量命名为 grow 0 选项 i ( proirinc 2) 指定观测案例的识别码 

(identifier), 或者是指定一个取值唯一从而能够标明逻辑观测的 变量。 在本例中, 

每个省份构成了一种逻辑观测 。 j ( year ) 选项指定下属观测案例的识别码，或者是指定 

一个 ( 在每一逻辑观测内）取值唯一从而能够标明下属观测案例的变量。这里，每一省份 
的下属观测案例是不同年份。 

图 2 .1 展了长格式数据的 一 种可能用途。我们现在使用一个 graph 命令便可以 


列出该数据可显示出它们是如何被变换的。 list 命令加上 sepby () 选项形成了 
以下表格，表中水平线分隔的是省份，而不是默认情况下的每五个观测案例。 


list , sepbv (provxnc2) 


Number of obs. 
Number of variables 


20 


5 


-> 


5 


— > 


j variable (4 values) 
xij variables : 


— > 


year 


grow92 grow93 


grow95 


-> 


grow 
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grow92 grow93 grow94 grow9 5 


provinc2 


10 


2.5 


2,2 


2.4 


1 , I New Brun 

2. I Newfound 

3. I Nova Sco 

4. I Ontario 

Quebec 


4.5 


8 


— 3 


3 . 9 


12 , 1 
174.9 
80. 6 


5,8 


3.5 


120 . 9 
48 - 5 


169.1 

11 • 4 


163.9 
47,1 


5 


reshape 命令可将其转换成长格式。 

reshape long grow r i (provinc2) _( year ) 

(note : j 


92 93 94 95) 




Data 


wide 


long 


-> 


9 19 9 


6 4 5 1 


o 

2 


3 


0 7 8 7 


7 6 


6 


2345 - 2345 
9999 - 9999 


7 8 9 0 
1112 


0 5 2 4. 


5 


2345 j 2345 
9999 - 9999 






























Ontario 

Ontario 

Ontario 

Ontario 


80.6 

77,4 

48-5 

47.1 


92 


Quebec 

Quebec 

Quebec 

Quebec 


93 


94 


95 


92 


12.1 


Nova Sco 
Nova Sco 
Nova Sco 
I Nova Sco 


93 


5.8 


94 


3,5 


95 


3.9 


Newfound 
Newfound 
Mewfound 

Newfound 


5 


-3 


-5,8 



10 


New Brun 
New Brun 
New Brun 
New Brun 


2*5 


2 


2 .2 


2.4 


epby {provinc2) 

- h 


list 


provinc2 


year 


grow 


这三个省在 1990 年代早期渔业的衰落造成了经济困难。新不伦瑞克省 （New 

Brun) 和新斯科舍省 （ Nova Sco ) 的人口增长显著减慢，而纽芬兰省 （ Newfound, 一个 

主要依赖渔业的省份）实际上出现了人口缩减。 

reshape 同样也能很好地反过来用于将数据从“长”格式转换成“宽”格式。数据集 


growth 3 . dta 作为长格式的一 1 个 7 K 例 

growth3 f clear 

(Eastern Canadian growth--long) 


O 


use 
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Brunswick 、 Newfoundlarici Nova Scotia，P 


画出其中三个省份（选择了 New _ 

的那部分观测案例）进行比较的时间标绘图。以下的 ffraph 命令要求画 

那部分观测案例的 grow ( 作为 y 轴变量）对 year(x 轴）的连线图，同 

时设置水平线于 y = 0处（人口零增长），并且对 provic 2 的每个取值分别画图。 


provinc 2 <4 
出 provinc 2 <4 


provinc2 < 4 , yline (0) 


graph twoway connected grow year 

y (provinc2) 


图 2.1 


wmrnm- 


■ 叶 


C io 

.1 


• . . 

P ). 


IS 


»tft 


o ‘ 


*9 


92 


93 


year 


Graphs by Eastern Canadian province 







9 19 9 


4 9 0 3 
7 6 2 6 



3 4 5 6 7 8 9 0 
1 T 1 1 111 2 


9 


0X2 

1 i — l I — 1 


2 3 4 5 
9 9 9 9 


2 3 4 5 
9 9 9 9 















Quebec 

Quebec 

Quebec 

Quebec 


80.6 

77.4 

48.5 


X3 


Ontario 

Ontario 

Ontario 

Ontario 


174*9 

169.1 

120,9 

163-9 


14 


15 


16 


5 


Newfound 
6. I Newfound 

7 • I Newfound 

8 • I Newfound 


Nova Sco 
Nova Sco 
Nova Sco 
Nova Sco 


10 


11 


12 


New Brun 
New Brun 
New Brun 
New Brun 


10 


2 


2.5 


3 


2.2 


2.4 


我们可能想为每一省份汇总出不同年份的平均增长率。在分拆的数据中，每条观测 
案例将对应着 by( )变量的一个取值，也就是某个省。 


collapse (mean) grow f by (provinc2) 

b 

list 
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为了将该数据转换成宽格式，我们使用命令 reshape wide 


reshape wide grow f i (provinc2) j(year) 

92 93 94 95) 


(note 




Data 


long 


wide 


-> 


Number of obs. 

Number of variables 
j variable (4 values) 
xij variables : 


20 


5 


-> 


3 


5 


-> 


(dropped) 


-> 


year 


grow92 grow93 




grow 


grow95 


list 


provinc2 


grow92 grow93 grow94 


grow95 


1 


New Brun 
Newfound 
Nova Sco 

I Ontario 

Quebec 


10 


2.5 


2*2 


2 拳 4 


2 


4.5 


8 


-3 


-5 * 8 


12.1 
174 ,9 
80,6 


5 ■ 8 


3.5 


3 拳 9 


169.1 

77 .4 


120.9 
48.5 


163.9 

47.1 


5 


请注意，我们已经重新创建了数据 growthl .dta 的结构。 

改变数据结构的另一个重要工具是 collapse (分拆)命令，它可用于创建一些统计 

量（如平均数、中位数或合计）的汇总数据 （aggregated dataset )。 在长格式的 
growth 3 数据中，每个省有四条观测案例： 


_ use growth3 f clear 

(Eastern Canadian growth——long) 


list, sepby (provinc2) 


t provinc2 


grow 


year 


2345 12345 
9999 - 9999 


7 8 9 0 
11X2 


2345 - 2345 
9999 - 9999 


5 8 3 8 


18 5 9 


4 


5 


2 3 4 5 
9 9 9 9 
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provinc2 


grow 


4,275 I 
.8750001 I 

6.325 I 
157.2 I 
63 .4 


New Brun 
Newfound 

_ 

I Mova Sco 
I Ontario 

Quebec 




举一个稍复杂的例子，假设我们有一个与 9rowth3 .dta 类似但还包含了变量出生 

数 （ Mrths ) 、死亡数 （ deaths ) 和收人 （ income ) 的数据。我们想要按各省汇总出这些 

年的总出生数和总死亡数，以及平均收人（名为 
的汇总数据集。如果我们不指定一个新变量的名称，比如，像上例中的叹⑽那样，或者 

像这里的 births 和 deaths , 那么分拆后的变量名称将与原来完全一样。 


) 和中位收人（名为 medinc) 


meaninc 


collapse (sum) births deaths (mean) 

(median) medinc 


income 


meaninc 

(provinc2) 


income 


collapse 能够根据以下概要统计量来创建 变量： 

平均数 ( 默认值;在未指定统计量类型的情况下使用 ) 

标准差 

合计 

忽略任意指定权数的合计 
非缺失值的观测案例数 

最大值 
最小值 
中位数 

第一百分位数 

第二百分位数 （ 如此等等，直到 ) 

四分位距 


mean 




rawsum 


count 


max 


mm 


median 


lqr 


观測棄例的加权 


Stata 接受四种加权 （ weighting ) 类型： 

分析权数，用在加权最小二乘 ( WLS ) 回归以及类似的估计程序中 

频数权数，用以对重复观测案例计数。频数权数必须是整数 

重要性权数，但是“重要性”由用户自己定义 
概率或抽样权数，等于观测案例根据抽样策略被选中的概率的倒数 
研究者有时会提到“加权数据” （ wei g hted data )。 这可能意味着原有的抽样方案 

采用特意设定的非等比例方式选取观测案例，就像权数等于“ 1 屬中概率”所反映的那 
样。在某些分析中，恰当使用 pweight 可以对非等比例抽样进行补偿。另一方面，“加 
权数据”可能意味着不同的东西，比如，汇总的数据集,它可能是根据一个或多个变量的 
频数表或交互表建构而成的，并且其中有变量表明某个特定数值或数值组合出现频数。 
在此种情形下，我们需要使用 fweight 。 

对于各种分析类型而言，并不是所有的加权类型都适用。比如，我们不能对 
tabulate 命令使用 pweight 0 在任何分析中使用权数都要求我们清楚地知道在该分 

析中进行加权的目的。权数本身可以是数据中的任何变量。 


aweight 

fweight 

iweight 

pweight 








Expect to attend university? 

What year of school now? 

observed frequency 


yes 


univers 

year 

count 


list, sep( > 


univers 


count 


year 


1 


10 


210 


no 


2 . 


11 


260 


no 


3 


12 


274 


no 


10 


yes 

yes 

yes 


224 


5 


11 


235 I 
178 I 


6 


12 


乍一看，该数据集好像只有 6 个观测案例，并且当我们针对学生是否期望上大学 

)和他们目前在高中就读的年级 ( year ) 建立交互表时，我们就得到了每一格 
只有一个案例的交互表。 

tabulate 


univers 


univers year 


Expect to I 

attend | 

■ 丄 ty 


universi 


What year of school 


now? 


10 


11 


12 I 


Total 


no I 
yes I 


•m 


3 


十 


Total [ 


2 


2 


2 


p 了理解这些数据，我们需要应用频数权数。变量 count 给出了频 数:有 210名十 
年级学生表示不想读大学，有名十一年级学生表示不想读大学，等等。设定 

[fweight = count ] 可以取得一张显示了全部 

tabulate 


1 381名学生的应答交互表。 


univers 


yeax* [fweight = count] 


Expect to I 

attend | 
university | 


What 


year of school now? 


? I 


10 


12 I 


Total 






^ - 


no I 

yes I 


210 


260 


274 I 
178 I 


744 


224 


235 


637 


Total 


434 


495 


452 I 


1381 


进一步来分析，我们可以通过增加选项要求得到列的百分比 （col) 、不显示交互格 
频数 (nof ) 和进行对独立性的卡方检验 ( C hi2) 

001)。想上大学的学生比例随着高中年级的升高而降低。 

tabulate 


其结果揭不了一种统计性显著的关系 


o 


(P = 0 


unavers 


year [fw 


count ], col nof chi2 
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下面用 1 38 1 名纽芬兰乡村高中学生的调查数据 （jifschool . dta ) 来示范频数加 
权的简单应用。 


describe 


Contains data from C : \data\nfschool 
obs : 
vars : 

size: 


dta 


4 


Newf.school/univer. (Seyfrit 93) 
3 Jul 2005 10:50 


3 


48 (99.9% of 


memory free) 


torage display 
type format 


s 


value 

label 


variable 


name 


variable label 



9 9 9 

o o o 
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Expect to I 

attend | 


What year of school now? 


ty 


universi 


Total 


12 t 


11 


10 


53.87 
46.13 


60-62 [ 
39, 38 


52.53 

4 7 .47 


恨 39 

51,61 


no I 
yes I 


100.00 


100.00 


100.00 


100.00 


Total I 


0.001 


13.8967 


chi2 {2) 


Pearson 


基于下述一种或多种抽样方法，调査数据往往反映了复杂的抽样设计： 

非等比抽样——比如，为了对特殊子群体推断有足够案例，从而对他们进行过度抽样 


( oversampling ) 


整群抽样——比如，首先随机选择选区，然后在抽中选区内调査所有个体。 

分层抽样一比如，首先将选区分成“城镇”和“乡村”两层，然后在每一层内分别抽取选 

区和个体。 

复杂的抽样设计要求专门的分析工具。对此, pweights 和 St at & 的常规分析命 


令并不能满足。 

Stata 针对复杂调查数据的程序包括特殊表格、平均数、回归、 logit 、 probit 、 

tobit 和泊松回归等命令。在应用这些命令之前，用户必须首先按识别变量设置好数 
据，包括区分基本抽样单位 （ PSU ) 、或者群、或者层，提供有限总体修正系数和概率权数。 
这都可以通过 svyset 命令加以实现。 比如： 


svyset precinct [pweight=invPsel] f strata (urb_rur) fpc (finite) 


对于本例中的每一观测，变量 princinct 的值标示了 PSU 或群。变量 urjb_ru:r 的取 
值标示了层， finite 给出了有限总体修正系数，同时 invPsel 给定了概率权数或抽中 
概率的倒数。数据经 svyset 处理、并被保存之后，调查的分析程序就相对简单了。 一 
般，我们需要在命令的前面加上前缀 


，如下所示 


vy : mean ancoine 


或者， 


education experience gender 


svy : regress xncome 


《调查数据参考手册 》 （Survey Data Reference Manual ) 囊括了 Stata 广泛的调查 

分析能力的详细说明和示例。对于在线指导，请键人 help svy 并按有关链接找到特定 


命令 


生成随机教接和随机样本 


伪随机数函数 uniform( ) 集中体现了 Stata 生成随机数据或对现有数据进行随 

机抽样的能力。《基础参考手册》（各函数）提供了关于3 2比特伪随机数发生器的技术 
描述。如果目前内存中读人了数据，那么以下命令可生成一个名为 randnum 的新变量， 
对于数据中的每一案例，该变量显然是从区间[0，1)内随机抽取的16位数值。 


generate randnum = uniform() 


作为替代，我们也可以从内存创建一个随机数据集。假如我们想创建一个包含10 
个随机数的新数据，首先需要将内存中的任何其他数据清除掉（如果有价值的话，请先用 




Total 


1000 


100.00 


从理论上，我们可以预期出现 1 点的情形占 16 .67% ，出现2点的情形占16 .67%，如此 

等等，但是在任何一个抽取的样本中，比如，这1 000次掷骰子，其观测百分比将围绕其 
期望值随机波动。 

_ 

还可以模拟1 000次同时掷两个骰子的结果， 键人： 
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命令保存它们），接下来设定新数据中想要的观测案例数。明确地设定种子数能使 


save 


以后重新得到同样的“随机”结果。最后，生成我们的随机变量。 


clear 


set obs 10 

obs was 0, now 10 


set seed 12345 


generate ratudnum = uniform () 


list 


randnum 


1. I 


309106 I 
I .6852276 t 

I , 1277815 I 
I .5617244 
, 3134516 I 


* 


2 


_ 


3 




5 


6* I . 5047374 

, 7232868 

, 4176817 I 
6768828 
,3657581 I 


8 


9 . 

■ 


_ 


10 


蜃 


结合 Stata 的代数函数、统计函数和特殊函数， uniform () 可以模拟由不同理论 

分布抽取数值。如果我们想要为新变量 newar 从区间 [ 0，428 ) 内、而不是从常用的区 
间 [0 ，1 ) 内抽取均匀分布 （uniform distribution ) 的数值，我们就 键人： 


generate 


428 


uniform () 


newvar 


所取得的将仍然是 l 6 位的数值。也许，我们只想要从1到 U 8 之间（含两端）的整数， 
那么 键人： 


=1 + trunc (428 

为了模拟1 000次投掷一个骰子的结果，键人 

• clear 

.set obs 1000 

obs was 0 f now 1000 

• generate roll 

.tabulate roll 

die I 


generate 


fc 


uniform ()) 


iiewiraz* 


1 + trunc ( 


uniform ()) 




Freq 


Percent 


Cum 


o o o o o o 

15 5 5 4-0 

■• ■ 4 ** 

7 3 8 5 2 0 
13 4 6 8 0 


o o o o o o 

14 0 0 9 6 


1 4 0 0 9 6 
7 6 5 7 6 7 









60 


4 


♦ 80 


60 


蠡 


60 


■ 


90 


* 


80 


* 


40 




00 




80 


_ 


10 


* 


00 




2 


3 


4 


5 


6 


7 


8 


10 


11 


12 


Total I 


1000 


100.00 
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+ trunc ( * uniform()) +trunc( * uniform()) 


generate dice 
tabulate dice 


dice I 


Percent 


Cum 


Freq 


summarx 


Variable | 


Obs 


Std- Dev 


Mean 


Max 


■ 


我们也可以使用 _ n 来生成一个人工数据。以下命令创建一个新的有5 000个观测 
的数据，该数据只有一个取值从1到5 000的名为 index 的变量。 


.set obs 5000 

obs was 0, now 5000 

% 

generate index 


index I 


5000 


2500.5 


1443.52 


5000 


也可以使用 uniform( ) 生成服从正态（高斯）分布的变量。下述例子创建一个包 
含2 000观测案例和 z 与 x 两个变量的数据，其中 z 来自于 N (0，1) 分布的总体， x 来自 

于 N (500,75) 分布的总体。 


clear 


.set obs 2000 

obs was 0, now 2000 


invnormal(uniform()) 

500 + 75*invnormal(uniform()) 


generate 

generate 


z 


实际样本的平均数和标准差会略微不同于它们的理论值。 


summarx 


Variable I 


Obs 


Mean 


Std. Dev 


Max 


2000 

2000 


0375032 
503 - 322 


1.026784 

75.68551 


-3,536209 

244*3384 


4,038878 

743,1377 


* 


x 


如果 z 服从正态分布，那么 

distribution )。 根据标准正态分布的 z 可以生成一个服从对数正态分布的变量 


就服从对数正态分布 （ lognormal 


v 


e 


v 


generate 一 exp(invnormal(uniform()) 


要想根据 N (100，1 5 ) 分布生成一个服从对数正态分布的变量键入命令 


(100 + 15*invnormal(uniform()) 


generate 


当然，取对数又将一个对数正态变量加以正态化 (no rma 1 i z e ) 。 

为了模拟从一个有平均数和标准差 M = 
distribution ) 总体中随机抽取的变量 y 的值，用 

1 (uniform ()) 


= 3 的指数分布 （ exponential 


CT 


generate y 


L "" J 















2 8 


683833170 

124578990 


ooooooooooo 

62803966839 

* .*■ 

2 5 4 4 
1 X 1 1 


2 6 7 


9 8 5 2 


628039668 

2 6 7 


3 9 
5 2 


2 5 4 4 

1 i — II 1 


9 8 
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对于平均数和标准差为其他值的情况，用其他值替代3即可。 

假如 XI 服从自由度为1的卡方分布，它就与标准正态的平方完全一样 


( invnormal ( uniform ()) 


1 


generate 


根据类似的逻辑，要生成 X 2 服从自由度为2的卡方分布，用 


generate = (invnormal (uniform ())) A 2 + (invnormal(uniform () )} A 2 


其他的统计分布，包括 t 分布和 F 分布，也可以采用同样的方式进行模拟。此外，还 
有为 Stata 编好的程序可以生成二项 （ binomial ) 分布、泊松 （ Poisson ) 分布和逆高 

Gaussian ) 分布等随机样本。 

l ( uniform ()) 经过调整可用于形成有特定相关关系的不同正态 
变量，更简单的办法则是使用 drawnorm 命令。为了生成服从 N (0 ,1 ) 分布的5 000个 
观测案例， 键入： 


斯( 


inverse 


尽管 


1 




lear 


(5000) 


drawnorm 


ailiiTul 


Variable | 


Obs 


Std. Dev 


Min 


Mean 


Max 




5000 - . 0005951 1.019788 一 4,518918 3.923464 


z 


下面，我们将进一步创建三个变量。变量 xl 来自 N (0，1) 分布总体，变量 x 2 来自 
N (100， l 5 ) 分布总体，而变量 x 3 则来自 N (500,75) 分布总体。而且，我们限定这些变 
量之间具有以下的总体相关 关系： 




X 1.0 0.4 -0.8 


0.4 1.0 0*0 






- 0.8 0.0 1.0 


仓! 1 建此类数据的程序需要首先定义相关矩阵 C ， 然后在 drawnorm 命令中调用 C 


(1 


mat C 


, 1) 


drawnorm xl x 2 x 3, means (0,100,500) sds ( l ,15,75} corr ( C ) 


1^x3 


summarxz 


Variable | 


Obs 


Mean 


Std - Dev 


Max 


xl 

x2 I 

x3 t 


5000 

5000 

5000 


0024364 
100.1826 
500 - 7747 


1-01648 

14.91325 

76-93925 


-3.478467 
46.13897 
211.5596 


3,598916 

150,7634 

769,6074 


* 


correlate xl - x 3 


(obs-5000) 


xl 


x 2 


x 3 


1.0000 
0,3951 
-0.8134 


xl I 
x2 

x3 I 


1 I 0000 

-0,0072 


1.0000 


将样本的相关系数和平均数与前面给出的理论值加以对比。用这种方式生成的随机数 

据可以看作是从理论总体中抽取的样本。我们不应当期望样本的统计与理论总体的参 
数完全相等。（本例中，的平均数为 5 00， xl 与 x 2 的相关为 0.4， xl 与 x 3 的相关为 
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-0 . 8 , 等等) 


可以利用 uniform 的随机数发生器来抽取内存数据的随机样本。比 
如，为了从原始数据中提取一个10%的随机样本，可键入： 


命令 


SuTi 


le 10 

当我们加上 in 或 if 限制条件时， 

■ 

sample 10 

将保留那些年龄小于 26 岁的观测案例的 10% 样本，同时还会保留所有年龄大于等于 
26 岁的原始观测案例。 

我们也可以选择某一特定规模的随机样本。为了从内存中的原始数据中随机选取 

90 个观测案例，可以 键人： 




le 只应用于那些满足条件的观测案例。比如 


<26 


ample 90 f count 


第 14 章中关于自助法和蒙特卡罗模拟的部分进一步提供了随机抽样和随机变量生成的 


例子 


编喇教据營理程存 


大规模的数据管理常常需要反复处理，又很容易出错，因此最好通过编制专门 
Stata 程序来进行处理。高级编程可能是技术性很强的工作，但是我们也可以从编写只 
包含一些 Stata 命令的简单程序开始，并将其存成一个 ASCII 文件。用户可以使用所 
喜欢的文字处理器或文本编辑器来创建 ASCII 文件，当然，这些编辑器应当能在 File - 

下的选项内提供 “ASCII 文本文件”的文件类型。使用 Stata 的 Do 文件编辑 
器创建此类文本文件就更为简单，它可以通过点击 Window - Do-file Editor 或图标 

钮 M 来启动。此外，还可以通过键入命令 doedit 或在文件已经存在的情况下键入 
doedit fi 1 ename 来启动 Do 文件编辑器。 

比如，我们使用 Do 文件编辑器来创建一个名为 Canada.do 的文件（其中包含了从 

的原始数据文件读取原始数据的命令），然后为数据及其变量添加标 
签，压缩数据并将其存成 Stata 格式。如果我们逐步査看该例子，会发现该文件中的命 
令内容和前面 一 ■步 一 '步所做的完全 一^ 样。 


Save 


名为 Canada 


raw 


infile str 30 place pop uneinp mlife f 1 ife using Canada 
label data "Canadian dataset 1 Tf 

label variable pop "Population in 1000 s f 1995 n 
label variable unemp 11 % 15+ population unemployed , 1995 11 
label variable mlife "Male life expectancy years 1 ’ 
label variable flife ’’Female life expectancy years n 
compress 

save Canada1 , replace 


raw 




旦 Canada, do 文件编写完成并加以保存，只要简单键人以下命令就可使得 
Stata 读取该文件并逐步执行其中的每一条 命令： 


■ 


do Canada 


此类被称作 “do 文件”的批模式程序常常保存成以 .do 作为扩展名的文件。更为精致 
的程序（由 do 文件或“自动的 do ” 文件加以定义）可以保存于内存中，并可以再调用其 
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他程序，这就创建出新的 Stata 命令，并为喜欢尝试各种探索的分析人员开启了可能性 
的世界。 Do 文件编辑器还具有几个其他的有用功能。第3章描述了一种使用 do 文件 
来创建图表的简单方法。进一步的信息，请见《人门手册》 （ Gettirzg started 

znanuaJ ) 有关使用 Do 文件编辑器的说明。 

Stata 通常把一条命令行的结尾视为该命令的结束。这在屏幕显示时是可行的，此 

时的命令行可以为任意长度，但是当我们将命令写入一个文本文件中时，这样就行不通 
了。这时可采用# delimit 命令来解决命令行宽限制的问题，该命令可以设定其他一些 

符号来作为一行命令结束的分隔符。在下述例子中，我们使用英文分号作为分隔符，接 

着键人两条很长的命令，都是直到分号出现才 结束; 最后再将分隔符重新设定回其常规 
值，即回车 （ cr ): 


#delimit ； 

infile str30 place pop unemp mlife flife births deaths 

marriage medinc mededuc using 

order place pop births deaths marriage medinc mededuc 

unemp mlife flife; 

#delimit 


newcan * raw 


cr 


母当显 7 K 结果占满了结果窗口 （ Result window ) 时， Stata 通常会暂停，直到我 

们敲任意键(或点击按钮 _) 才会继续。为了不出现暂停，我们可以要求 Stata 持续 
翻屏直到输出结果全部完成。将下述命令键入命令窗口 （ Command window ) 中或作为 

程序的一 部分： 


et more off 


表示要求持续翻屏。当程序产生许多屏我们并不想看的输岀结果、或者当结果被写人一 
个我们可以随后再查看的 log 文件时，这就变得很方便。如果 键入： 


set more on 


则是要求重新回到在翻屏之前等待键盘输人的常规状态。 


甴存管 


当我们打开 (use 或 File-Open) —个数据集时， stata 读取保存在磁盘上的文件 

并将其载人内存。将数据载人内存可以使分析做得更快，但是这只是在数据适合当前分 
配给 Stata 的内存空间时才可行。如果试图打开一个过大的数据，我们就会得到一条 

特定的错误信息，说“没有空间来加人更多观测 ” （no room to add 
observations ) ，并且还提示了下一步的处理 建议： 

C : \data\gbank2. dta 


more 


use 


(Scientific surveys off S. Newfoundland) 
no room to add more observations 


An 


attempt was made to increase the number of observations 

You have the following alternatives 
Store your variables more efficiently 
Stata r s data area as the 


beyond what is 


currently possible 


■ 


help compress, 


(Think of 

of a rectangle; Stata can trade off width 


see 


area 


and length - ) 

2- Drop some variables or observations; 

Increase the amount of 
memory command; see help memory 


help drop. 
memory allocated to the data 


see 


3. 


using the set 


a rea 


r ( 901); 



数据管理 1 57 


Small Stata 版本会对数据分配固定的内存量，并且这一限度不能更改。但是， 


Intercooled Stata 和 Stata/SE 这两个版本却是灵活可变的。 Intercooled 版 

本默认的内存分配量为1兆字节，而 Stata / SE 版本则为10兆字节。如果我们用的是 

Intercooled 版本或 Stata/SE 版本，并且计算机具有足够物理内存的话，我们可以 

命令来为 Stata 设定更高的内存分配量。要给数据分配 2 0 兆的内 


使用 set 

存空间，可以键人 


memo ry 


set memory 2Om 


Current me mo r y allocation 


current 

value 


memory usage 

(1M = 1024k) 


description 


settable 


1. 733M 
20.000M 

1,254M 


variables allowed 
data space 
RHS 


5000 


set maxvar 
set memory 
set matsize 


max 


20M 


max 


mode 1 s 


400 


vars l n 


22.987M 


要是内存中已经读入数据，请首先键入命令 clear 来清除它们。要想使重设的内存分 
配“永久化”，以至于我们下次启动时还是这样分配，可以 键入： 


et memory 20m, permanantly 


在前面给出的例子中， gjba _ n ； c 2 . dta 是一个 11.3 兆的数据集，这并不适合于默认的 
内存分配量。因此，要求20兆的分配量现在给了我们足够的内存空间来读入这些数据。 

数据集 gbank 2 . dta 包含了 1971年到1993年期间对纽芬兰大浅滩的鱼类数量 
进行科学调查所得到的74 078条观测案例。当我们描述 （ describe ) 这些数据时（见 
上面的输中）， Stata 报告说有“46.09%的空闲内存”，这并不是指计算机总内存的 
46%，而是指分配给 Stata 数据的20兆中的46%。通常，我们应该要求比数据实际所 

需更大的内存空间。许多统计和数据管理操作还会占用其余的内存，其中是因为它们在 
工作过程中会临时性地创建一些新变量。 

将内存设置 （set memory ) 到超过计算机可用物理内存也是可能的。此时 ， Stata 

会使用实际上存在于磁盘存储器上的“虚拟内存”。尽管虚拟内存允许超过硬件限制，但 
是计算机运行会变得极慢。如果用户总是在超出计算机限制的情况下处理数据，那就意 
味着您很快就会决定去购买更多内存了。 

请键人 help limits 查看 Stata 中的限制清单，不但有关于数据集大小的限制， 
也有包括矩阵大小、命令长度、名称长度和命令中的变量数等其他方面的限制。其中的 
某些限制,用户可以自行调整。 、 
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gear_op 

depthcat 

min_dept 

max_dept 

bot_dept 

temp 

tempcat 

temp fs— 

lat 

long 

pos_meth 

gear 

total 

species 

number 

weight 

丄 atin 

common 
surteinp 
fishtemp 
depth 
i species 


sur 


original case number 


Vessel 

Trip number 
Set number 


Year 

Month 

Day 

Set type 

Stratum or line fished 
NAFO division 
Nfld 

Light conditions 
Wind direction 
Wind force 


set type 


grid map square 


area 


Type of bottom 
Time (midpoint) 
Duration of set 

Distance towed 


id 


rec_type 

vessel 

trip 

set 

rank 

assembla 

year 

month 

day 

set_type 

stratum 
di vi 
unit_are 
light 
wind_dir 
wind_for 
sea 

bottom 

time_mid 
duration 

tow dist 
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Depth (minumum) 
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Depth (bottom if MWT) 
Temperature (surface) 
Category of temperature 
Temperature (fishing depth) 
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Longitude (decima1) 


Gear 


Species 

Number of individual fish 
Catch weight in kilograms 
Species 

Species 

Surface temperature degrees C 
Fishing depth temperature C 
Mean trawl depth in meters 
Indicator species 


Latin name 




common name 
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Contains data from C : \data\gbank2.dta 

74073 


Spring scientific surveys NAFO 
3KLN0PQ, 1971-93 
2 Mar 2000 21:28 


obs : 


44 


var s 


11333934 (46.0% of memory free) 


size 


storage display 

format 


value 

label 


variable 1abel 


variable name 


type 



ortea by 


gg gggg g gg g gg g gg 

ooooooooooooooo 


g 

o 


g 

o 


g gg 

o o o 


s 5 

9 3 2 9 9 

^* % % % % 


44888888 

% % % % % % % % 


9 

% 


9 4 8 9 8 


9 

% 


9 

% 


9 


% % 氏 ％ % 


% 


g 9gg g ggg 

oooooooo 


s 


384444888 

% % % % % % % % % 





作为对 Stata 分析结果含义以及综合其他分析的一种展示，图形出现在本书的每 
一章。确实，图形一直是 Stata 的强项，也是许多用户选择 Stata 而舍弃其他软件包 
的理由。从 Stata 的第 1 版到第 7 版, graph 命令逐渐发展。但是， Stata 第 8 版在 
制图方面取得了重大进步。 graph 经过了基础性的重新设计，增强了形成精致的、符合 
发表质量要求的分析图形的能力。输出图形的外观和选择也得以大大改进。使用新的 
graph 命令语法和默认设定，或者代之以通过新菜单的方式，很容易就能画出具有吸引 
力的（可供发表的）基本图形。那些并不满足于基本图形而在制图方面要求更高的用户 
将会发现他们可以确实得到一系列工具和选项上的支持，这些功能在500页的《制图参 

考手册 》 （Graphics Reference MamzaJ) 中作了描述。 

在本章简短的篇幅内，我们将采用制图示例方式，而不是命令语法分析方式，来介绍 

从基础制图到创造性制图的广泛内容（请见《制图参考手册》或键人 help graph 查看 

全部的命令内容）。我们从说明七种基本图形开始。 

直方图 

双变量的散点图（ scatterplot ) 、 曲线标绘图 （ line plot) 

和许多其他图形 

散点图矩阵 （scatterplot matrix) 

箱线图 （box plot) 

饼图 （pie plot) 

条形图 （bar plot) 

点图 （dot plot) 

_ 

这些基本类型中的每一种都包含许多选项。对于功能强大的 twoway 图型而言尤其 


histogram 
graph two way 


graph matrix 
graph box 
graph pie 
graph bar 


graph dot 


如此 


为了查看变量分布的详细情况，还有诸如对称图 （ symmetry plot) 、分位数标绘图 

(quantile plot) 和分位一正态图 （ quantile-normal plot ) 等更专门的图形。本 

章包括了这些图形以及工业质量控制图的一些例子。请键人 help graph_other 查看 
更多细节。 

最后，本章结束时将讲解一些能够表达丰富数据，并能用于发表的完备图形的有用 
技术。此类技术包括为图形添加文本、叠并多个二维图、保存并取回图形加以格式编辑， 
以及将多个图形合而为一。随着发展，制图命令变得更为复杂，因此写出 （ do 文件形式 

的）简单的批程序 （batch programs ) 可以便利重新使用这些图形。制图选项的全部内 

容远远超出了本书覆盖的范围，但是本章结束时将会用例子指点一些制图的可能性，随 
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后各章还会提供更多的例子。 

制图 （ Graphics) 菜单使得通过点击方式也能完成大部分的制图工作。 

对 Stata 长期用户的一点 提示 : Stata 第8版和第9版的制图能力使得那些更早版 

本相形见绌。对于习惯于旧版本 Stat a 的分析人员而言，有许多新材料要 学习。 菜单方式 
提供了一条入门捷径，同时，与原有制图命令一样，新的制图命令遵循一致的逻辑，通过实习 
就能搞清楚。幸运的是，这种变化并不是突然的。如果需要，第7版的制图命令仍然可用。 
它们已被移到命令 graph7 之下。 比如，旧版本的散点图以前是采用以下命令： 


graph income education 

这个命令在更新版本的 Stata 中无法运行。作为替代，命令 

graph7 income education 


将再现熟悉的旧版图形。 graph7 的选项和旧版 graph 的选项类似。要想查看同一散 
点图的升级版，请键人新的制图 命令： 


graph twoway scatter income Bducation 


新命令的更多例子将在随后各节给出，它们可以说明重新设计的图形能力发生了哪些变 
化（以及哪些与以前一样）。 


命令承范 


• histogram y , frequency 

画出变量 y 的直方图，以纵轴 （vertical axis ) 显示频数。 

I 

， histogram y f start(0) width(10) norm fraction 

X 轴以 0 处为起点，画岀变量 y 的直方图，条宽度为10。根据样本平均数和标准差 
添加正态曲线，并在纵轴上显示出小数形式 （ fraction ) 的数据频率。 

histogram y 

在一幅图中，对 X 的每个取值画出 y 的各个直方图，同时画出样本整体的“总”直方图。 

• kdensity x, generate (xpolnts xdensity) width(20) biweight 

计算并画出 x 分布的内核密度 （kernel density ) 估计值。创建出两个新 变量: 
xpoints 为要估计密度的 x 的各点取值; xdensity 为相应的密度估计值。 width(20) 
以变量 x 的单位来指定内核的半宽 (halfwidth of the kernel ) 0 (如果 width( ) 未 

被指定，默认值会遵循一个简单公式达到“最优”）本例中的 biweight 选项是为了调用双 

加权内核 (biweight kernel ) ，而不采用默认的 epanechnikov 内核函数。 

• graph twoway scatter y x 

显示 y 对 x 的基本双变量散点图。 

• graph twoway Ifit y 

通过叠并两幅 twoway 图形将 y 对 x 的线性回归加以图 形化: 即回归 （ 线性拟合或 
lfit) 线图和^对7的散点图。如想要给该回归线添加 95 % 置信区间带，可用 lfitci 

取代 lfit 0 

， graph twoway scatter y x f xlabel(0(10)100) ylabel(-3(1>€ f horizontal) 


y( 


total) fraction 


catter y 
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3 制图 


建构 y 对 X 的散点图，并在 X 轴的0，10,…，100处加标签、在 y 轴的-3, -2,…,6 

处加标签，并且标签为水平放置而不是垂直放置 （ 为默认状态）。 

.graph twoway scatter y 

建构 y 对 x 的散点图，并且数据点标注变量 country 的相应取值。 

* graph twoway scatter y xl f by (x2) 

在一幅图中，对 W 的每一取值画出 y 对 xl 的散点图。 

.graph twoway scatter y xl [fweight = population] , msymbol (Oh) 

画岀 y 对 xl 的散点图。标记符号为中空的圆圈 （ Oh ) ，其大小与频数权数变量 

population 成比例。 

• graph twoway connected y time 

y 对 time 的基本时间标绘图。显示的数据点由线段连接起来。要想添加线段但不 

要数据点标志 （ marker ) ，就用 line 来代替 connected ： 

_ 

, graph twoway line y time 


mlabel ( country) 


graph twoway line yl y2 time 


画出具有相同量度的两个 y 变量对名为 time 的 X 变量的时间标绘图（本例中为曲 


线图）。 


graph twoway line yl t±me f yaxis (1) | | line y2 tlmB f yaxis (2) 


画出具有不同量度的两个变量的时间曲线，并将它们叠并在同一曲线标绘图内。 

yaxis ( 1 ) 指定左边的 y 轴按 yl 设置量 度，而 yaxis(2) 指定右边的 y 轴按设置量度。 

• graph matri 

建构一个散点图矩阵，显示列出变量之间所有可能的两两交互散点图。 

.graph box yl y2 y3 

建构变量 yl 、 y 2 和 y 3 的箱线图。 

.graph box y f over(x) yline(.22) 

对 x 的每一取值建构 y 的箱线图，同时在 y =0.22 处画一条水平线。 

, graph pie a b c f pie 


1 


2 


3 


rz\ 


y 








画一个饼图 1 ，其中的每块表明了变量 a 、 b 和 c 的相对量。这些变量必须具有相似 


的单位。 


graph bar ( sum ) 


b 


以条形图中并排的条显示变量 a 、 b 和 c 各自的合计。要想得到平均数而不是合计， 
键人 graph bar ( mean ) a b c 。 其他选项还包括以条长度来表示中位数、百分位数或 

者每一变量的计数。 


graph bar (mean) 


, over(x) 


画出在变量 x 每一取值处显示变量 a 的平均数的条形图。 


graph bar ( asis ) 


b 


over (x) stack 


1 【 译注: 选项 Pie 后必须加括号及有关定义，如 pie ( #，••… •) 。】 
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画出变量3、^和 c 的条形图，图中变量和 c 的值（照原样）在变量 X 的每一取 
值处层叠起来。 


graph dot (median) y f over(x) 


画出一个点图，沿着水平刻度在 x 每一取值水平所对应的 y 的中位数处打点。其他 
选项包括平均数、百分位数或者每个变量的计数。 


qnorm y 


画岀一幅分位一正态标绘图（正态概率图），显示相应的正态分布的百分位数处的 y 
的百分位数。 

rchart xl x2 x3 

建构一幅质量控制的 R 图，图中画出了变量 xl 至 x 5 的取值范围。 

图形的选项，比如，那些控制标题、标签和坐标轴上的记号标志等，在不同图形类别之 
间都是通用的，只要其有意义。而且， Stata 图形命令背后的逻辑在不同图形类型之间也 
是一致的。在将基本要件组合成图的过程中，这些共同的原理就是取得画图流畅性的关键。 


f connect(1) 




直方 






直方图自身的命令 histogram ， 用于显示测量变量分布状况，是取得直方图最简单 


的方法。 


比如，我们回到 states . dta , 该数据包含美国 50 个州加哥伦比亚特区的一些环境 
和教育方面的指标（数据来源： the League of 


Conservation Voters , 1991 ； 
National Center for Education Statistics , 1992 ,1993 ；World Resources 
Institute ， 1993)。 


tates 

(U,S. states data 1990-91) 


use 


■ describe 

Contains data from c:\data\states.dta 
obs 

vars 

size 


51 


U . S- states data 1990-91 
4 Jul 2005 12:07 


21 


4080 (99.9% of memory free) 


storage display 
variable name type format 


value 

label 


variable label 
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图 3.1 显示了 college 的简单直方图，它描述了各州 25 岁以上人口中具有学士及 
以上学位的人口比例的分布。它可由以下命令得到： 


college, frequency title ( 11 Figure 


histogram 


m 3.i 


35 


% adults college degree 


在 Prefs-Graph Preferences 菜单中，我们有数种图形默认颜色和底色的预设 

方案可以选择。用户也可定义自己的方案。本书中的例子应用曰 2 

monochrome) 方案，该方案下每一图形周边会有阴影边距 （shaded margins)。si 

方案就不会有此类的边距。尝试不同的单色和色彩方案有助于决定哪种方案特别 
适合某一特定目的。本章后面将会说明,在一种方案下制成并保存下来的图形随后可以 

取回并采用另一种方案后再次保存。 _ 

图形命令的选项可按任意顺序排列在该命令的英文逗号之后。图示范了两个 

选项: 要求纵轴上显示频数（而不是默认的密度）；要求将标题“ Fi g ure 3 .1”置于图形上 
方。 一 旦图形显示在屏幕上，就可以通过菜单选项方便地完成图形的打印、保存或者将 

其剪切并粘贴到其他文字处理器等程序中去。 

图 3.1 表明该分布呈正偏态，众数 ( mode ) 略高于 I 5 ，存在一个取值 35 的特异值。 

很难更具体地去描述该图，因为图中的直方条和 x 轴的刻度并不对应。图3. 2 包含了 

( 基于一些迅速实验所找出的恰当数值)数项 改进： 

1. 对 x 轴添加数值标签，取值从12到3 4 ,间距为 2 

2. 对 y 轴添加数值标签，取值从0到 I 2 ，间距为 2 

3. 显示 y 轴上的刻度，从1到 I 3 ，间距为 2 ; 

4. 直方图的第一个直方条从12 开始； 

5. 每一个直方条的宽度为2 。 

, histogram college r frequency title (’’Figure 

ylabal (0(2)12) ytick(1(2)13) start(12) width(2> 


(单色， 


mono 


mono 


_ 


_ 


)xlabel (12 (2)34) 
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图 3.2 


12 14 16 18 20 22 24 26 

% adults college degree 


28 30 32 34 


图 3 . 2 有助于我们更具体地描述该分布。比如，我们现在看到，各州中具有大学学历的 
百分比在 I 6 到 18 之间的有 13 个。 

其他有用的 histogram 选项 包括： 


bin ( #) 


图中画出的直方条为#个。我们要么指定 bin (#) ，要么如图 3.2 中那 
样定义起始值 start (#) 和直方条宽度 width ( #) ，但两者不能同时 


存在 


在纵轴上显示百分比。因此， y 轴标签 ylabel 和 y 轴刻度 ytick 指的 

也是百分比数值。图 3 . 2 中还示范另一种可能选择，即频数 frequency 。 

我们也可以要求显示数据的频率 fraction 。 默认状态下的直方图是显 

示密度 density , 此时直方条按比例绘制，因此所有直方条的面积之和 
等于1 

要求在直方条之间留出间隙。#是相对的，取值区间为0在#< 10 0 ;通过 
试验来找到一个合适的值 


percent 


gap (#) 


addlabels 要求标注直方条的高度。另 一 个选项 addlabopts 可以改变标签的 


外观 


定义离散数据，要求 x 的每个取值对应着一个直方条 
基于样本平均数和标准差，在直方图上添加一条正态曲线 
在直方图上添加内核密度 （ kernal - density ) 估计值。选项 kdenopts 
可以改变密度的计算 方法; 有关细节请见 help kdensity 

对直方图或大多数其他图形，我们也可以不理会默认设定而对横轴和纵轴制定我们 
自己的标题。选项 ytitle 控制 y 轴的标题，而 xtitle 控制 x 轴的标题 

了这些标题，并且采用了一些其他的直方图选项。请注意在基本图形（图 3.1) 发展到更 

复杂图形（图 3 . 3 ) 过程中的新增元素。这就是 Stata 图形建构的通常 模式; 从简单的图 

形开始，然后尝试性地在原有命令基础上增加选项，在 Review 窗口也能选用这些选项， 

直到最后得到一幅能最清楚地表达研究发现的图形。图 3 . 3 实际上过于复杂，画在这里 
仅为了示范多种选项。 


discrete 


norm 


kdensity 


图 3.3 示范 


o 
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3 制图 


11 ) ylabel(0(2)12) 


r 


histogram college, frequency title( H Figure 

xlabel(12(2)34) start (12) width (2) addlabel 


ytick(l(2)13) 

gap (15) 


norm 


图 3.3 


Q 


r 




o 


12 14 16 18 20 22 24 26 28 30 32 34 

% adults college degree 


假如我们想看看 college 的分布是如何随着 region 而变 化的。 by 选项可以得 

到分别对应 region 每个取值的直方图。其他选项和画单个直方图时的作用相同。图 
3.4 展示了一个例子，其中我们要求在纵轴上显示百分比，并将数据分成 8 个直 方条。 


y (region) percent bin(8) 


istogram college 


图 3.4 
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wrnimmmmmmm mm 


mm 
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Graphs by Geographical region 


以下图 3.5 包括了一套四个地区的类似图形，同时加上了第五个图展示所有地区合 


计的分布。 


togram college r percent bin(8) by (region, total) 


坐标轴的标签、亥 ( I 度、标题以及 by ( varname ) 或 by ( varname ， total ) 选项在其 

他 Stata 制图命令也起类似作用，我们在下一节就要讲到。 
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图 3-5 
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Graph$ by Geographical region 

A A ^ 


散点固 


基本的散点图 （ scatterplot ) 可以通过一般形式的命令得到 


graph twoway scatter 


y 


这里 y 是纵轴 变量 ， x 是横轴 变量。 比如，还使用 states.dta 这一数据，我们可以作出 
waste (人均固体废弃物)对 metro (大都市地区的人口比例）的散点图，结果显示在图 

图 3 . 6 中的每一个点都代表着美国 5 0个州（及华盛顿特区）的其中之一。 


3.6 


graph twoway scatter vast 


图 3.6 
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和直方图一样，我们也可以用 xlabel 

度或标题。散点图也允许对散点标志 （ marker ) 的形状、颜色、大小和其他属性进行控 

制。图 3 . 6 使用了实心圆圈这一默认的标志。如果我们加人选项 msymboK circ ie ) 
或者简写成 msymbol(O) 的形式的话，将得到同样的效果 

ymbol(D) 将形成一幅以菱形标志散点的图，等等。下表列岀了可选的形状 


xtitle 等来控制坐标轴标签、刻 


xtick 


xnsymbol (diamond) 或 


LUf :」 
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描述 


缩写 


msymbol () 


圆圈，实心 
菱形，实心 

三角，实心 
方形，实心 


circle 


diamond 


triangle 


square 


加号 


plus 


大写字母 x 

小圆圈，实心 
小菱形，实心 
小方形，实心 

小三角，实心 
小加号 

小写字母 X 

圆圈，空心 
菱形，空心 

三角，空心 
方形，空心 
小圆圈，空心 
小菱形，空心 

小三角，空心 

小方形，空心 
很小的点 
不可见 




smcircle 


smdiamond 


smsguare 


smtrj. angle 
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smplus 


smplus 






oh 


circle hollow 


diamond hollow 


Dh 


triangle_hollow 
square 一 hoilow 
smcircle hollow 


h 


sxadiamond hollow 


dh 


smtriangle 一 hollow 
smsquare_hollow 

point 


th 


h 


■ 

1 


none 


mcolor 选项控制标志的颜色。比如，命令 

graph twoway scatter wmste metro f msymbol(S) mcolor(purple) 


将产生一个散点图，图中的散点标志为紫色大方形。请键入 help colorstyle 査询可 
选用的颜色的清单。 

散点图还能做一件有趣的事，就是可以使标志的大小 （ 即面积）与第三个变量的取值 
成比例，从而赋予数据点不同的可见“权数”。比如，我们可以重画 wste 对 metro 的 

散点图，但使其标志的大小反映每个州的人口数 （ pop )。 如图 3.7 所示，使用选项 
fweight []( 即频数权数）可以做到这点。空心圆圈的标志 msymbol (Oh) 则提供了一 

种更合适的形状。 

频数权数对于其他一些图形类型也有用。加权可能是一个令人迷惑的复杂问题，因 
为“权数”来自不同类型，并且在不同情况下具有不同的含义。有关 Stata 中加权的概 

况，请键入 help weight 査询。 


graph twoway scatter waste metro [fweight = pop] f msymbol(Oh) 
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Stata 第 9 版中新的密度分布奏花图 （ density-distribution sunflower 

plot ) 提供了一种对高密度数据画散点图的替代选择。大体上，它们类似于散点图，但 

其中的一些个别数据点被葵花状记号所代替以表明该处的观测案例不只一个。图 3.8 

展示了图 3 . 6 的葵花图版，图中一些花一样的记号（有四个“花瓣”的那些）代表了该处有 
最多为 4 个州级数据点。在 sunflower 命令后面打印出来的表提供了有关每一朵花代 

表多少条观测案例的答案。花瓣 ( petal ) 的数目和花的灰度对应着数据的密度。 


sunflower wast 


tro f addplot(Ifit waste 
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Graphs by Geographical r ion 


下面的图 3.10 显示了分别对母个区域的 waste 对 metro 的散点图。这两个变量 
之间的关系在南部 （ South ) 和中西部 （ Midwest ) 明显表现得比在西部 （ West ) 和东北 
部 ( N . East ) 要更陡，我们将在后面确认这一印象。本例中的 ylabel 和 xlabel 选项 

限定了 y 轴和 x 轴的标签采用不带小数的三位数(最多）的固定显示格式,这使它们在很 
小的分图中更易读。 


graph twoway scatter waste metro r y (region) 

ylabel (, format (%3• Of )) xlabel ( f format (%3• Of )) 


图 3.10 






屬華_議__ 滯腎 


葵花图对于大型数据或者当许多观测案例画在类似（或相同)坐标处时尤其有用。 

图 3.8 中的例子还添加了一条回归线，本质上是一幅 twoway If it 图，只是已通过指定 

选项 addplot ( If it waste metro ) 叠并或添加到奏花图上。 

常规散点图中的标志能够根据标签进行辨别。比如，我们可能想对图 3 . 6 散点图中 
的散点加上州名。但是，50个州的名称将会把该图变得看上去很混乱。如果只对西部 
这个区域似乎就更可行一些。用 if 选择条件来实现这一点,得到了以下图所示的 

结果 o 


region==l f mlabel( tats) 

图 3.9 


graph twoway scatter wast mBtro x 


S 


#Catifofnia 


O 


o 


<D 


Oregdh Hawaii 




• Washington 


» New Mexico 


Alaska 




• Idaho 


« Nevada 
Arizona 


c 

O 


Montana 


# Colorado 


Utah 


Wyoming 


S 


o 


200 


40.0 


60.0 

Metropolitan area population 


% 800 


100.0 


I 69 


3 制图 




_ 


馨 


^3. 

I 


I 


_ 


_ 


0 


0 


wm. 

0 


1 


I 


I 


1 


1 


纖 

1 

f-! 1 '-''''' 


'■ 炫 L ' ? _ 

i. # 


mm 


MB 


I 


i 


I 


i 

'■' 曝： ■"'?• 


翁 0 

IJ—rm—' 


_ 
一！鐘 ) i 


z 


z 










切 uoro^eM pfjos elldmu jed 


70 I 应用 STATA 做统计分析 


由 graph matrix 生成的散点图矩阵在多元分析中很有用。它们提供了各对变量 

交互关系的简洁展示，允许分析人员审视数据中可能影响统计建模的非线性、特异值或 

聚群 （ clustering ) 等问题的迹象。图 3.11 显示了 states . dta 数据中三个变量的 

散点图矩阵。 


graph matrix miles metro 


waste f half msyxabol (oh) 

图 3.11 
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选项 half 指定图 3 _11 应当只包括矩阵的下三角部分，因为上三角部分是与其对称 
的，所以对于许多研究目的而言都是多余的。选项 msymbol (oh) 要求对散点图采用我 

们想要的小空心圆圈作为标志。坐标轴的控制更为复杂，因为有多少变量就有多 少坐标 
轴;请键入 help graph_matrix 査看具体细节。 

当关注的变量中包含一个因变量或“结果”变量和数个自变量或“ 原因” 变量时，最 

好将因变量列在 graph matrix 变量清单的最后。这样会形成整齐的一排横跨底部的 
因变量对自变量的散点图。 


曲幾 括给固 


机械地看，曲线标绘图就是其中的点由线段连接起来的散点图。和散点图一样，曲 

^ _ 散点图中控制 
添加坐标轴标签和标志的选项对曲线标绘图同样起作用。新的选项可以控制曲线本身 
的特征。 


线标绘图的不同类型也属于 Stata 功能强大的 graph two way 族命令 


o 


与散点图相比，曲线标绘图往往有不同的用法。比如，和时间图 一样， 它们也可描述 
个变量随时间而发生的变化。数据集 cod . dta 包含着时间序列数据 （t 

data ) ，反映了纽芬兰北部鳕鱼渔场的不幸经历。该渔场曾经是世界最丰饶的渔场之 

一 ，但是主要由于过度捕捞，在1992年就崩溃了。 

个展示加拿大捕捞量 （ canac ^) 和总的鳕鱼捕捞量 （ cod ) 的简单时间图可以通过 

画出这两个变量对年份 ( year ) 的曲线标绘图得到。图 

年代晚期国际性的过度捕捞高峰，以及随后在1 98 0年代加拿大 10 年的巨大捕搜压力， 

最终导致1992年北部鳕鱼渔场的崩溃。 ’ 
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12 就是这样的图，显示 1960 
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Contains data from C : \data\cod ， dta 
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在图 3.12 中， Stata 自动地为第一个提到的 y 变量 cod 选择了一条实线，而为第 

二个变量 Canada 选择了虚线。底部的图例说明了这些线条的含义。我们可以通过重 
新安排图例和去除多余的 y 轴标题来对该图加以改进，如图 3.13 所示。 


graph twoway line cod Canada year, legend(label (1 
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Canada ff ) position (2) ring (0) rows (2) ) ytitle ( f, n ) 
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至于图 3.13 的 legend (图例）选项可以分解如下。请注意，所有这些子选项都出 

现在 legend 后面的括号之内。 

label(1 "all nations") 为第一个提到的 y 变量添加标签 “ all nations ” （所有 

国家） 

为第二个提到的 y 变量添加标签“ Canada "( 加拿大） 
将图例放置在2点钟的位置上（右上角） 

将图例放置在图中空白处 
将图例排列成两行 

通过缩短图例标签并将其放置在图中的空白处，我们可以留下更多空间用于显示数据和 
创建更具吸引力和可读性的图形。 legend 对其他带有图例的图形也起类似作用。键人 

help legend_option 查看许多可用的子选项的清单。 

图 3.12 和图 3.13 只是用线段将每个数据点连接起来。使用 connect 选项还可以 
使用好几种其他的连接类型。 比如： 

I 

connect(stairstep) 

或等价地用 

Connect(J) 

将使各点以阶梯形(水平，然后垂直）线条连接起来。图 3.14 以取自 cod . dta 数据的政 

府所设总捕捞限量 （ government-set Total Allowable Catch , TAC ) 这一变量的 

阶梯形时间标绘图进行了举例说明。 


label(2 "Canada") 
position(2) 

ring(0) 
row(2) 


graph twoway line TAC year, connect(stairstep) 

图 3.14 
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其他的 connect 选项如下所列。默认的连线方式是直线，相当于选项 

■ 

(direct) 或 connect(l )。 更多内容，请参见 help connectstyle 。 

缩写 


connect 


connect() 


描述 


i 无连接 

1 ( 字母 “ el ”） 用直线连接 


none 


direct 


笔直线，但只适合 x[i + 1] > x [ i ] 的情况 

水平，然后垂直 
垂直，然后水平 


ascending 


stairstep 


stepstair 
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以下的图 3.15 重现了 TAC 的阶梯形标绘图，但是在坐标轴标签和标题上面作了一 
些改进。选项 xtitle(" ") 要求 x 轴不添加标题（因为“年份”是显而易见的）。我们 
在 x 轴上以两年为间隔添加刻度标志, y 轴则以100为间隔添加标签，而且 y 轴的标签 
按照横向而不是（默认的）纵向显示。 


graph twoway line TAC year f connect (stairstep) xtitle ( n 11 ) 

xtick(1960 (2)2000) ytitle( H Thousands of tons”} 
y label (0 (100) 800, angle (horizontal) ) xtitle 
clpattern(dash) 
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图 3.15 中，我们还使用了 clpattern ( dash) 选项，要求使用虚线 （dashed 

line ) 而不是任由 Stata 决定线条样式 （ pattern ) (实线、虚线等）。线条样式的可能 

选项如下表所列（也可参见 help linepatternstyle ) 。 

_ 

描述 


clpattezm() 


实线 （solid line) 

虚线 （dashed line) 

点线 （dotted line) 

点划线 （dash then dot) 

短划线 （short dash) 

短戈 ! 1 点线 （short dash followed by dot) 
长划线 （long dash) 

长划点线 （ long dash followed by dot) 

不可见的线 （invisible line) 

如， clpattern (- •) 或 clpattern( - ••) 


solid 


dash 


dot 


dash dot 


shortdash 


shortdash—dot 


longdash 


1 ongdash—dot 


blank 


formula 


在我们转到其他的例子和类型之前，以图 3.16 将本节讨论到的三个变量结合起来 
创建为一个图形，展；^了北部鎗鱼渔场的悲剧。请注意 connect( )、 clpattern() 
和 legend( ) 选项在涉及三个变量的情况下是如何起作用的。 
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連战柘给固 


在上节的曲线图中，数据点是不可见的，我们只看到连线。命令 graph twoway 
connected 创建连线标绘图（ connected-line plot ) ，图中的数据点由散点图记号 

加以标志 d 前面对 graph two way scatter 描述过的标志记号选项以及对 graph 
twoway line 描述过的连线样式选项也都可以应用于 graph t 

图 3.1 7 展示了一个默认状态下的例子，取自 cod . dta 数据中测量鳕鱼单位面积数量的 
变量 （ jbiomass ) 的连线时间标绘图。 

^ graph twoway connected biomass yea 


y connected 


图 3.17 
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graph twoway line cod Canada TAC year, connect(line line stairstep) 

cl ttern(solid longdash dash) xtitle( M ") xtick(1960 (2)2000) 
ytitl ("Thousands of tons") ylabel(0 (100) 800 , angle(horizontal)) 
xtitle ( 11 n ) legend (label (1 "all nations'') label (2 "Canada"} 
label(3 "TAC") position( ) ring(0) rows(3)) 


74 I 应用 STATA 做统 汁分析 


1 


M 






°° 


TO 60 


8< 


suo-o spuesnoMX 





制图 1 75 


数据中只包含1978 —1997年的单位面积数量值，这导致图 3.17 出现大片空白。 

if 选择条件为我们限定年份取值范围提供了可能。下面的图 3.18 实现了这点,它还对 

图形进行了装饰，以展示对标志记号、线条样式、坐标轴和图例上的控制。由于鳄鱼捕携 
量和单位面积数量同时位于同一图形中，因此我们看到鳕鱼单位面积数量在1980年代 

晚期开始骤降，即这场危机的发生实际上比官方承认的要早好几年。 


year < 1999, 


year > 1977 


graph twoway connected bio cod yBB.T 

msymbol(T Oh) clpattern(dash solid) xlabel(1978(2)1996) 
xtick (1979 (2) 1997) ytitle ( v, Thousands of tons") xtitle ( M 11 ) 


ylabel(0(500)2500, angle(horizontal)) 
legend(label{1 "Estimated biomass") label ( 
position(2) rows(2) ring(0)) 
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图 3.18 
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其他类型的二维标给固 


除了基本的曲线标绘图和散点图之外， graph twoway 命令还包含许多其他的类 
型。下表列出了可能的 情形： 


描述 


graph twoway 


散点图 

曲线标绘图 
连线标绘图 

即时参数 （ immediate arguments ) 的散点图（数据在命令行中给定) 
线图加以区域着色 

二维条形图（不同于 graph bar) 


scatter 


line 


connected 


scatter! 


area 

bar 

spike 
dropline 


垂线图 （ 点向特定数值做垂直或水平的连线 ) 

二维点标绘图（不同于 graph dot) 

全距图，将高端和低端值之间区域着色 
在高端和低端值之间添加条形的全距图 
在高端和低端值之间添加芒线的全距图 
带有两端被戴帽的芒线的全距图 


rarea 


rbar 

rspike 

reap 
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续表 


描述 


graph twoway 


带有两端被加有记号的芒线的全距图 
带有散点标志的全距图 
带线条的全距图 

rconnected 带线条和标志的全距图 

带芒线的成对坐标图 （ paired-coordinate plot ) 

带有两端被加有记号的芒线的成对坐标图 
带箭头的成对坐标图 

pcbarrow 带双箭头的成对坐标图 

pcscatter 带记号的成对坐标图 

即时参数的带芒线的成对坐标图 
即时参数的带箭头的成对坐标图 
时间序列标绘图 
时间序列全距图 

以直线段连接波段内 （ x ， y ) 的交叉中位数 

以立方样条曲线连接波段内 （ x ， y ) 的交叉中位数 

LOWESS (局部加权的散点图修匀）曲线 
线性回归线 


rcapsym 


rscatter 


rline 


pcspike 


pccapsym 


pcarrow 


ci 


pcarrowi 


tsline 


tsrline 


an 


mspline 


lowess 


lfit 


<lf it 


分式多项式标绘图 
带置信区间的线性回归线 
带置信区间的二次回归曲线 

带置信区间的分式多项式标绘图 
函数的曲线标绘图 


fpfit 


lfitci 


qfitci 


fpfitci 


function 


histogram 直方图 


内核密度标绘图 


kdensity 


控制线条样式、标志记号等等的常用选项适用于所有的 twoway 命令。有关具体命 
令的更多信息，请键人 help twoway—mband 或 help twoway_function 等（使用上 

述名称中的任何一个）咨询。请注意， graph twoway bar 是不同于 graph bar 命令 
的。类似地， graph t 


y dot 也不同于 graph dot 。 类似于散点图或曲线图， 
y 版的命令提供了一个测量型的 y 变量对另一个测量型的 x 变量制图的不同方 
法。但是，非 twoway 版的命令则提供了对一个或更多个测量型的 y 变量对一个或更多 

变量的不同类别的概要统计量（如平均数或中位数）制图的方法 

令因此是比较专门的，尽管（和所有的 twoway 图一样）它们可以和其他的 twoway 图 
形叠并在一起，以取得更复杂的图形效果。 

正如本章稍后描述的那样，这些图形类别中的许多种都能通过叠并两幅或更多幅简 
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单图形来构成复合图形，这是极为有用的。其他一些则产生精致的独立图形。比如，图 
3.19 显示了一幅纽芬兰渔场鳕鱼捕获量的区域图。 


cod Canada year, ytitle ( f, n ) 


graph twoway 
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区域图中着色 （ shading ) 和其他图形中的区域着色都可以通过选项 bcolor 进行 

控制。请键人 help colorstyle 査看可选的颜色，其中也包括灰度 （gray scale ) 0 

最深的灰度 （ gsO ) 实际上就是黑色。最浅的灰度 （ gsl 6) 是白色。其他灰度值位于这两 
者之间。比如，图 3.20 显示了上图的浅灰度版。 


cod Canada year, ytitle ( " 11 ) bcolor (gsl2 gsX4) 

图 3.20 
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异常的冷空气或海洋状况在纽芬兰渔场的灾难中起着次要的作用，这一灾难不仅波 
及北部鳕鱼渔场，还影响到其他物种和总量。比如，邻近的圣劳伦斯湾的主要鱼种在这 

一时期也出现了下降 （ Hamilton，Haedrich and Duncan ， 2003 ) 。 数据集 gulf • 

dta 描述了环境和北部湾鳕鱼捕捞量（原始数据取自 DFO , 2003 ) o 



图 3 . 2 1 中 base () 的格式突出了 1 98 0年代晚期到 l 9 90 年代早期这段时间中连 
续发生的异常严冬（最大冰面覆盖面积高于平均水平），而这段时间大约正是纽芬兰发生 

渔业危机的时候 9 我们也能看到1 98 0年代早期及以前有一段温和的冬天，以及近年来 
回暖趋势的迹象。 

图 3 . 22 中，对同一数据的不同视角采用 lowess 回归对时间序列进行修勻。波段宽 
度选项 bwidth (.) 设定基于修匀数据点的曲线，这些数据点根据包含40 %样本点的移动 

波段内的加权回归计算得到。如果缩小波段宽度，比如，采用 bwidth ( .2) ， 即用20%的数 
据的波段宽度来修匀，将给我们一条更为参差不齐的曲线，它修勻得更少因而更接近于原 
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图 3 _ 2 1使用这一平均数( I 73 千)作为芒线图的基线 ( base )， 图中基线上下的芒线分 
别表示高于或低于平均冰面覆盖量。选项 yline (173) 要求在173的位置画一条水平线。 

winter > 1963, base(173) 
ylin (173) ylabel(40(20)220, angle(horizontal)) 
xlabel(1965( )2000) 


graph twoway spike maxarea inter 


图 3.21 
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这些年间，年份冰面覆盖面积最大值平均为 173 017 平方公里。 
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Contains data from C : \data\gulf.dta 
obs 
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始数据。默认状态采用 bwidth ( . 8 )这样更高的波段宽度，因此修匀的幅度更大。不管所 

选的波段宽度是多少，指向 x 取值任一极端值的修勻点都必须根据越来越窄的波段进行计 
算，因此将表现出更少的修匀 0 第8章包含更多有关 lowess 修匀的内容。 


lowess maxarea winter if vintar > 1963, bwidth{* 4) 
yline(173) ylabel(40(20)220, angle(horizontal)) 
xlabel{1965(5)2000) 


graph twoway 


图 3.22 
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全距图使用条形 （ bars ) 、芒线 （ spikes ) 或着色区域 （shaded 

一 水平上 y 值的高端与低端。每日股市价格常常采用这种方式得以画出。图 3.23 显示 
了数据 gulf.dta 中冰面覆盖面积的最小值 （ minarea ) 和最大值（ 

变量画出的两端戴帽的芒线全距图。 


) 连接 X 每 


areas 


) 这两个 


maxarea 


graph twoway reap minarea maxarea winter if winter > 1963, 

ylabel(0 (20)220 r angle(horizontal) ) ytitle( n Ice area f 1000 km 

xlabel(1965(5)2000) 


图 3*23 
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这些例子绝没有穷尽二维图的可能性。其他的应用贯穿于本书全书之中。在本章 
的稍后部分，我们将看到把两个或更多的二维图叠并成一个单一图形的例子。 
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应用 STATA 做统计分析 






箱线图 （box plot ) 直观地提供了有关中心、散布、对称和特异值的信息。想得到一 

幅单一的箱线图，请键人以下格式的 命令： 

* 

• graph box y 

如果几个不同变量具有大致相似的测量尺度，我们可以通过以下格式的命令直观地比较 
它们的 分布： 

• graph box 

箱线图最为常见的应用之一就是比较一个变量在另一个变量不同类别上的分布。 

图 3.24 比较了来自数据集 states. dta 的美国四个地区之间各州大学生比例 
( college ) 的分布。 


y 


graph box college f over (region) yline(19,1) 


图 3.24 


Midwest 


具有大学学历的成年人比例的中位数在东北部地区最高、而在南部地区最低。另一 
方面，南部各州之间的差异更大。图 3 . 24 中各地区的中位数（盒内的线）可以直观地与 

由选项 yline(l 9 .l) 添加的 so 个州的中位数进行比较。这一中位数值可通过键入以 
下命令 得到： 


collBge 


summarize 


regxon < ,, detail 


第 4 章描述了 summarize, detail 命令。上面的 if region < .选择条件把我们的 

分析限定在那些 region 没有缺失值的观测案 例上; 也就是说，除了华盛顿特区之外的 
所有各州。 

箱线图中的箱子从第一到第三个近似四分位数扩展而来，这段距离被称作四分位距 
( IQR，interquartile range )。 因此，其中包含了约占 SO %的数据。第一到第三个四 

分位距之外大于1 . 5 倍 IQR 的那些观测案例被定义为特异值，它们在箱线图中被单独地 
一 画出。图 3 . 24 中的四个分布都没有出现特异值。 Stata 的箱线图用与 summarize ， 
detail 相同的方式来定义四分位数。这与（第 4 章)用于计算字母取值显示的 lv 的“第 

四”值并不是同样的近似方法。有关四分位数近似值及其在辨别特异值中的作用的更详细 
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内容，请参见: Frigge ， Hoaglin，and Iglewicz(1989) ， 以及 Hamilton(1992t>) 0 

许多选项控制着箱线图中箱子的外观、着色和细节，有关的清单，请见 help graph . 
图 3.25 使用来自数据 states .dta 中的人均能源消费量 （ energy ) 示范了这些 

over 

sort ( 1 )) 要求根据箱子对第一个提到的 （ 本例是唯一的) y 变量上的中位数 

作升序排列。 intensity(30) 用以控制箱子中着色的亮度，这里的设定值比图 3 . 24 

中默认状%要略微低一些（即更浅）。图 3.25 中有悖视觉习惯地以垂直线标志了总的中 

位数 （320 1，因此要求采用了选项 yline 、 而不是 xline G 


box 

选项中的一部分，还采用了 graph hbox 的水平 （ horizontal ) 布局。选项 


O 


region, 


r (region r sort (1)) yline (320) intensity (30) 

图 3.25 


graph hbox energy 


er capita energy cdnsumM, 


图 3.25 中的能源箱线图不但说明了中位数之间的差异，而且还说明存在着特异值， 
比如，西部和南部地区有四个极高消费量的州。略微加以深究，我们就发现这些都是产 
油 的州: 怀俄明、阿拉斯加、德克萨斯和路易斯安娜。箱线图擅长于引起对特异值的注 
意，而特异值在其他统计分析中则很容易被忽略(并且常常引起麻烦）。 


饼 


尽管对分析工作价值很小，但饼图 （pie chart ) 仍是“图形表达”的流行工具 
Stata 的基本饼图命令具有如下 格式： 

.graph pie 

这里 2 ，变量 

人为单位） 

有关阿拉斯加人口民族构成的数据集 AKethnic . dta 提供了一个例子。阿拉斯加 

的本地土著民族人口分成三个宽泛的文化或语言群 体：阿 留申族 （ Aleut )、 印地安族 

■ 

_ 

(Indian) 和爱斯基摩族 （ Eskimo) 。 取自 1"0 年美国人口普查的民族变量 aleut 、 

iiidiar 2、 es ； cij 77 o 和 nonnati v (非土著）分别是每个群体的人口数。该数据只包含三 
条代表三种规模的社区观测案 例：即 10 000及以上人口的市、1 000到10 000人口的 


y z f pxe 


y 和 z 都是以相似的单位测量某事物的量 （ 比如，全都以美元、小时或 






O 


【译 注 : 此 句命令的选项 Pie 后必须加括号及有关定义，如 pie(# ， explode )。】 




popcat 


Community type (size) 

Population 

number of communities 

■ 

Aleut 

工 ndian 

Eskimo 

Non-Native 


comtype 

pop 


aleut 

indian 
eskimo 
nonnativ 


Sorted by 


该州人口的大部分为非土著人，这一点可以从一个饼阁 （ 图 3.2 6 )中清楚地看到。 
为了强调，选项 pie (3, explode) 使第三个提到的变量 eskimo 从 饼中“爆出” 
( exploded )。 为了与更小的土著人口相比较，用选项 pie( 4 , color (gsl3 )) 将第四 

个提到的变量 


着色成浅灰色。（在本书中，我们的例子只使用了灰度着色，但 

是请记住还有其他诸如 color (blue) (蓝色）或 color (cranberry ) (青紫色）等可 
能的选择。请键人 help colorstyle 查询有关清单。） plabel ( 

( 2 0 )) 要求在距中心 2 Q 个相对半径单位的位置对 es ； cii7 ? o ( 第三个变量）扇区添加一个 
百分比标签。我们看到阿拉斯加人口中约8%是爱斯基摩人 
四行的方框图例放置在图中11点钟的空白位置上。 


nonnativ 


percent , gap 


legend 选项要求将一个 


o 


graph 


aleut Indian Bskimo 


nonnatxv f pie(3 r explode) 
pie(4, color(gsl3) ) plabel(3 percent, gap(20)) 
legend(position(11) rows(4) ring(0)) 


图 3.26 
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非土著人是图 3 . 26 中的人口主体，但是如果我们通过增加选项 by ( comtype) 对不 
同社区类型分别画出饼图的话，就会出现新的细节（图 3 . 27 )。选项 angle o () 设定饼 

中第一个扇区 （ slice ) 的起始角度 （ angle )。 图 3.27 中第一扇区的起始角度被设定为 

0 度（水平方向），标签在这一角度时更易读。图形显示出，尽管土著人只是阿拉斯加城 
市人口中的小部分，但是他们构成了乡村人口的大多数。尤其是爱斯基摩人占了村民中 
的较大部分，即所有村民人口的 35 %，而且在一些地方甚至超过了 90% o 这使得阿拉斯 
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城镇，以及少于1 000人的乡村。 


Contains data from C : \data\AKethnic *dta 

obs : 

vars : 
size : 


Alaska ethnicity 1990 
4 Jul 2005 12:06 


7 


6 3 {99•9 % of memory free) 


storage display 
variable name type format 


value 

label 


variable label 
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加乡村具有不同于阿拉斯加城市的特征。 


alsut Indian Bskimo nonnativ, pie(3, explode) 
color(gsl3)) plabel(3 percent, gap(8)) 
legend(rows(1)) by( comtype) angleO(0) 


graph pie 


图 3.27 






wmm mm 




8 141 % 


3467 % 


Non-Native 
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Graphs by Corrimunity type ($i»> 


条形圏 


尽管条形图 （bar chart ) 比箱线图包含更少的信息，但是它们仍然为比较平均数、 

中位数、合计数或计数等多种概要统计提供了简单而又多样化的展示。比如，要想得到 
显示 y 在 x 不同类别上的平均数的直方条， 键入： 


graph bar (mean) y, over(x) 


为了显示 W 的不同类别内又在 xl 不同类别上的 y 的合计 （ sum ) 的水平方条，键人 

.graph hbar ( 

条形图可以显示以下任何一个统计量： 

平均数 ( 默认 设定; 如不指定统计量类型的话,就会输出平均数） 

标准差 

合计数 

忽略随意设定权数的合计数 
具有非缺失值的观测案例数 
最大值 
最小值 

中位数 

第一百分位数 
第二百分位数 
四分位距 

这一可用的概要统计量清单和 collapse 命令（见第2章）对应的清单相同，也和 
graph dot (下一节）与 table (第4章)等许多其他命令对应的清单相同。 


) y r over (xl) over (x2) 




mean 


^£1 


rawsum 


count 
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float 


state 

region 
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college 

overweight 
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motor 


US State 

Geographical region 
Median household income, 1990 

low 

% adults HS diploma , 1990 

% adults college degree, 1990 

% overweight 

% inactive in leisure time 

% male adults smoking 

% female adults smoking 
% adults smoking 

Age-adjusted motor-vehicle 
related deaths/100000 


region 


income2 


Median income 


high 


or 


Sorted by 


state 


图 3.2 8 I 田 I 出了四个地区 （ region ) 在非积极休闲 （ inactive ) 人口比例上的中位 

数。我们看到了明显的地区差 异:非 积极休闲率在南部地区最高(36%, South ) ,西部地 
区最低 (21 % ， West ) 。请注意，纵轴有自动标注的 “p 50 of inactive ” ，即第50百分 

位数或中位数。选项 blabel ( bar )要求标注直方条的高度（20.9等）。 bar ( l ， 
bcolor ( gs ( l 0)) 设定第一个提到的 y 变量对应的条形应当填充中度浅灰色。 


graph bar (median) inactive f 

bar (1, bcolor(gslO)) 


ver(ragi on) blabel(bar} 


图 3.28 
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28.3 
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mm 


通过增加另 一 个变量 overwei 如 t (超重），并将其对应的直方条填充更深灰色，图 
3 . 2 9进一步体现了这一作图方法。图 3.29 中的直方条标签要用中等字号，即 size 
( medium )， 这使得它们比图 US 中默认设定 S ij 5 e ( sm all ) 的字号更大。 size () 子 

选项的其他可能选择还包括 tiny (极小 ）、 medsmall (中小）或 large (大）等字号标 
签。对于完整的变量清单，请见 help textsizestyle 。 图 3.29 显示身体超重流行程 
度的地区差异没有非积极休闲率的差异明显，尽管这两个变量的中位数都是在南部和中 
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数据集 stateheaJth . dta 包含了美国各州的更多数据信息，它将来自1990年普 

查的社会经济指标和来自疾病控制中心 （ CDC ，2003 ) 对1994 一 1998年期间若干平均 

健康风险指标合并在一 * 起。 


Contains data from C:\data\statehealth-dta 
obs 
var s 
size 


51 


Health indicators 1994-1998 (CDC) 
9 Jul 2005 11:56 
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variable name type format 


value 

label 


variable label 


9 

OQ g ggg g g g g 
* *00000000 


g 

o 


* o 1 


9 

% 


1 


9 9 
% % 


9 9 9 
% % % 


% 










3 制图 丨85 


西部 最高。 


graph bar (median) inactive overweight f over(region) 

blabel (bar, size(medium)) 
bar(1 f bcolor(gslO)) bar( 


bcolor(gs7)) 


图 3*29 
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数据 stateheal th - dta 中的风险指标包括每十万人口中的车祸死亡人数 
( motor )。 下面的图 3.30 先按地区将其进行分组，然后在地区内再按低收人和高收人 

(州户收人中位数是低于还是高于全国中位数）将各州进一步划分成不同下属分组，最 
后揭示车祸数量与财富存在着惊人的相关。在每一地区内部，低收人的州呈现出更高的 
平均车祸死亡率。要是按同一收入类别之间的比较，车祸死亡率在南部地区较高，而在 
东北部地区较低。命令中两个 over 选项的顺序控制了它们在组织图形中的顺序。对于 

本例而言，我们选择了水平条形图 （horizontal bar chart ) 或 hbar 。 在这种水平条 

形图中， ytitle 和 yline 等选项所指的都是横轴。 yline(17 .2 ) 标示了总平均数 


水平 


graph hbar (mean) motor f over (income2) over (region) yline(17•2) 

ytitle ("Mean mo tor-vehicle related f a tali ties/10 0000 f, ) 
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如图 3.31 所示，直方条也可以层叠 （ stacked ) 在一起。这个图是根据阿拉斯加的 

民族数据 ( AKetMmicr . dta ) 画出的，该图应用所有的默认设定按社区类型（村、镇、城 
市）来展示人口的民族构成。 


graph bar (sum) nonnativ alout Indian eskxmo, over( comtyp) stack 


图 3.31 


viliagas 

• • • 


cities 


sum of nonnativ 
sum of indian 


sum of aleut 
sum of eskimo 


图 3. 32 通过改进图例 （ legend ) 和坐标轴标签 （axis labels ) 重画了该图。 
over 选项现在包括了子选项 （ suboptions )， 这些子选项重新添加社区类型标签，因此 

在横轴上提供了更多的信息。 legend 选项定义了与直方条层叠的顺序相同的四行图 

例，并将其放置在图中11点钟的空白位置上。它还改进了图例标签。而选项 ytitle 、 
ylabel 以及 ytick 则设定了纵轴的格式。 


graph bar (sum) nonnativ aleut Indian eskimo, 

over (comt 

3 ,f Citi 


relabel(1 "Villages <1000" 2 "Towns 1000-10000 
> 10000 ”）> 


yp 

±e 


legend(rows(4) order( 


1) position(11) ring(0) 
label (1 ’’Non-native") label (2 M Aleut M ) 
label (3 "Indian") label (4 "Eskimo，’” 
stack ytitle(Population) 

ylabel(0(100000)300000) ytick(50000(100000)350000) 


图 3,32 
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i 制图 


图 3.32 针对与图 3.27 中饼图相同的变量进行制图，但是它们的显示却完全不同。 
尽管饼图显示了每种社区类型内部民族的相对规模（百分比），但是条形图却显示的是它 
们的绝对规模。因此，图 3.32 告诉我们一些图 3.27 所不能反映的 内容: 阿拉斯加爱斯 
基摩人口中的大部分都居住在乡村。 


Ml 


点图 （dot plot ) 所服务的目的与条形图极为相 同:直 观地比较一个或更多测量型 
变量的概要统计。两类图形的组织和 stata 选项大都类似，包括概要统计的选择在内。 
要想看到变量 x 、 y 、 z 和 V /在中位数上比较的点图，键入； 


graph dot (median) 


y 


要想比较在 X 不同类别上 y 的平均数比较的点图，键人 


graph dot (mean) y 9 over(x) 


图 3 , 33 显示了数据 stateheaJ th . dta 中按地区 （ region ) 划分的男性和女性吸 

选项包含了一个子选项 sort ( smokeM) ，要求将地区按照其男 


烟率的一幅点图。 

性吸烟率 smoJceM 的平均数的值从低到高进行排序。我们还设定用实心三角作为 

smokeM 的标志记号、用空心圆圈作为 somkeF 的标志记号。 


over 


graph dot (mean) smokeM smokeF f over (region f sor^t (smokeM)) 

marker(1, msymbol(T)) marker(2, 


ymbol(Oh)) 
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尽管图 3.33 只显示了八个平均数，但是它这样显示在某种程度上便利于若干种比 
较。我们看到 :男性 的吸烟率通常 更高; 就两性而言,都是南部和中西部的吸烟率 更高; 
男性吸烟率的地区差异相对更大。条形图能够传达同样的信息，但是点图的一个优点就 
在于它的简洁。点图（尤其是将行按所关注的统计量进行排序后，如图 3.33 中那样）即 
使是在具有十几行或更多行的情况下仍然很容易读。 
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对称固和分位教固 


箱线图、条形图和点图概要描述了测量变量的分布，通过隐藏个体数据点来阐明整 

_ 

体模式。但是，对称图 （symmetry plot ) 和分位数标绘图 （quantile plot ) 则是在一 

个分布中包含了每个观测案例的数据点。它们比概要图形更难读，但是传递出更具体的 
信息 D 


图 3. 34 呈现了美国 SO 个州的人均能源消费量 energy (取自数据 states .dta) 

的直方图。该分布包含了少数极高消费量的州，这些州恰好都产石油。 一 条叠加的正态 

( 高斯）曲线表明 energy 的左尾小于正态分布，而右尾却大于正态分布，因而符合正偏 
态的定义。 


histogram energy, start(100) width(100) xlabel(0(100)1000) 

frequency norm 


图 3.34 
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图 3 . 35 以对称图的形式描述了这一分布。它以第 i 个高于中位数的观测案例的 

(垂直）距离对第 i 个低于中位数的观测案例的距离制图。如果分布是对称的，那么所有 

的点都将位于对角线上。相反，我们看到的却是正偏态 迹象: 相对于低于中位数的距离, 

高于中位数的距离变得越来越大。和图3. 3 4不同，图 3.35 还揭示出能源消费量的分布 
在中心位置周围是大体对称的。 


分位数 ( quantiles ) 是表示特定比例的数据位于其下的数值。 比如 ，一个 0 . 3 分 
位数表明它的值高于30%的数据值。如果我们将 ii 个观测案例按升序排列，那么第 i 
个值就构成了 （ i-0 .5)/n 分位数。以下命令将计算变量 


的分位数 


energy 


drop if energy >= 
sort energy 

generate quant = 


正如第 2 章中提到的，一 n *_ N 都是 Stata 的系统变量，只要内存中有数据，它们总是静 
悄悄地存在。一 n 代表当前所在的观测案例序数，而 _ N 则是观测案例的总数。 

分位数标绘图自动计算位于每一数据值以下的观测案例比例有多少，并像图 3.36 
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图 3.36 
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分位一正态图 （ quantile - normal plot ) ， 也被称作正态概率图 （ normal 

probability plot ) ，将观测变量分布的分位数与一个具有相同平均数和标准差的理 
论正态分布的分位数进行比较。这种图可以就变量分布的每个部分对正态性的偏离进 
行直观的审察，从而有助于指引有关正态性假定的判断和寻找某种正态化转换的方法。 

p 

图3 .37 是一幅关于变量 energy 的分位 一 正态图，它确认了我们已经观察到的严重正偏 
态分布。 grid 选项要求标注两个分布的0 .05 、0 .10,0.25( 第一四分位数）、0 .50 ( 中 

位数）、 0.75( 第三四分位数）、 0.90 和 0.95 百分位数的坐标刻度。其中， 0.05 、0.50 
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中那样以图形方式显示这些结果。分位数标绘图为那些手头没有原始数据的人提供了 
一 种图形参考。根据一个恰当添加标签的分位数标绘图，我们能够估计中位数（ 0 _ 5 分 

位数）或四分位数 （0.2 5 和0. 75 分位数）等序次统计量。四分位距（工 QR ) 等于0. 2 5 和 

75 这两个分位数取值之间的差。我们也可以看一个分位数标绘图来估计落人给定数 

值以下的观测案例的比例 （fract ion ) 。 
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m 0 . 95 百分位数值显示在顶端和右边的数轴上。 
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分位一分位图 （ quantile-quantile plot ) 类似分位一正态图，但是它们是在比 
较两个经验分布的分位数(经排序的数据点），而不是一个经验分布与一个理论分布的比 
较。下面的图 3 _ 38 显示了美国 5 0个州及哥伦比亚特区的学术能力测验（ SAT ) 的平均 
数学分对平均语言分的分位一分位图。如果两个分布相同，那么我们将看到点都沿着对 

角线分布。然而，我们看到数据点构成了一条大致平行于对角线的直线，表明这两个变 
量分布具有不同的平均数、但是具有相似的形状和标准差。 

_ qqplot msa 


vsa 


图 3-38 


Qustntrte-Qiiantife Plot 
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《图解回归》 （ i^egrression with Graphics ) ( Hamilt : on ， 1992 a ) 介绍了如何解 

读基于分位数的图。 Chambers 等（ I 983 )提供了更多的内容。相关的 stata 命令还 
包括 pnorm ( 标准正态概率图） 、pchi ( 卡方概率图）和 qchi ( 分位卡方图）。 
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质量控剎固 


质量控制图 （ quality control charts ) 用于对工业生产等重复过程的产出进行 
监控。 Stata 提供了四种基本 类型： c 图、 p 图、 R 图和 5 图。在这些方法被发明之后, 

又产生了第五种类型，它是由纵向排齐的5图和 R 图构成，又被称作常规控制图 

(Shewhairt) 。 Iman( 1994 ) 提供了对 R 图和叉图的简要介绍，包括计算控制极限所用 
的计算表。《基础参考手册 》 （Base Reference Manual ) 提供了 Stata 命令的细节和 

公式。这些命令的基本样式 如下： 


cchart defects unit 


c 图画出了单位数量 （ unit ) 中的不一致 （nonconformities ) 或瑕疵 

( defects ) 数量。基于每个单位出现不一致的数量服从泊松分布的假定，图中以水平线 
标示上下控制极限。数值超过极限的观测案例被认为是“失控”。 


pchart rejects unxt 


saxzs 


P 图画出了单位数量 （ unit ) 中的不合格产品的比例（即 rejects 除以 ssize ) 0 

上下控制极限由正态分布近似推导出来，计算中考虑了样本规模 （ ssize ) 的影响。如果 
不同单位样本规模不同，那么控制极限也将随之变化，除非我们增加一个选项 


stabilize 


5 ， connect (X) 


rchart xl x2 x3 




用每个样本 （ sample) 从变量 xl 到 x5 所代表的重复测量来建构一幅 R( 即全距, 
range) 图，在本例中指每个案例重复测量 5 次。按样本序数画出每个案例重复测量的 
全距的图形，并且（此为任选项）以线段连接成连续全距曲线。水平线分别标示平均全距 
和控制极限。如果这一过程的标准差未知，那么控制极限将根据样本规模进行估计。在 
标准差 o ■已知时，我们可以在命令中加入这一信息。比如，假设 o * = 10,可 键入： 


5 ， connect(1) std(10) 

5, connect(1) 


rchart xl x2 x3 




xchart xl x2 x3 


使用变量 Xl 到 x 5 的重复测量建构一幅 S (平均数）图。按样本序数画出每个样本 
重复测量的平均数，并且以线段连接为平均数曲线。平均数的范围根据样本平均数的总 
平均数估计得到，控制极限根据样本规模估计得到，除非我们不采用这些默认设定。比 
如，如果我们知道实际过程具有平均数 /x = 50 和标准差 cr = 10, 可以用以下方式纳人这 

些 信息： 


寒 connect(1) mean(50) std(10) 


xchart xl x2 x3 




作为替代，我们也可以定义特定的上下控制极限 


xchart xl x2 x3 

upper(60) 


connect(1) mean(50) lower(40) 


shewhart xl x2 x3 


5• mean(50) std(10) 


在一幅图中，垂直排列一幅 Z 图和一副 R 图。 

为示范制作一幅 P 图，我们用数据文件 qualityl . dta 中的质量检验数据。 
请注意，各单位的样本规模 （ ssize ) 不同，并且单位 （ day ， 天）并没有经过排序 


f 曰用 lman (1994：662 ) 的数据集 quality2 .dta 来示范 rchart 和 xchart 。 变 

量 xl 到 x 4 表示来自某个工业生产过程的重复测量;该数据共有 2 5 个单位，每个都有 4 
次重复测量 

图 3 . 4 0的 R 图画出了这 25 个单位在全距上的过程变异。 rchart 告诉我们有一 
个单位的全距“失控 

图 3 . 4 1的5图显示了平均数上的过程变异。这 25 个平均数中没有一个超出控制 
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pchart 自动地处理这些复杂情况，所创建的图 3 .39 中的控制极限是变化的。（如果要 
固定控制极限、而不管样本规模不同的情况，可以加上 stabilize 选项） 
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Contains data from C : \data\qua1ity2* dt 

obs 
var s 
size 


Quality control (Iman 1994;662) 
4 Jul 2005 12:07 
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graph twoway catter smokeT college, yaxi (1 ) 

titl ("This 

caption("Thi 

ytitle("Percent adults smoking") 

ytitl (” Thi 


(1 ) 


xaxx 

the SUBTITLE") 
the NOTE") 


the TITLE") subtitl ("This 

the CAPTION") note ( ff Thi 


J.S 


Y AXIS 

xtitl ("Percent adults ith Bachelor' 


( 2 )) 


axx 


degrees 


higher H ) 


or 


title("This 


AXIS 


t axi { >) 


可以添加标题 （ title) 、说明 （ caption) 和注 （ note) 以使得图形更具自我解释 

性。在默认情况下标题和副标题 （ subtitle) 岀现在图形的上方;注（比如，说明数据来 

源）和说明出现在下方。当然，这些默认设定可被忽略。键人 help title_options 

查看有关标题放置的更多信息，或者用 help textbox _ options 査看有关它们内容的 

细节。图 3.42 使用数据 stateheaJth . dta 来示范美国各州的吸烟流行率和大学毕业 

人口的比例的散点图，图中采用以上这四个选项的默认设置。还用选项 
置了图 3.42 中左右两侧的 y 轴标题，用 

随后，用选项 ytitle 和 xtitle 中的子选项 axis (2) 又设置了第二个轴标题。正如 

我们后面将看到的， y 轴第二标题不一定非设在右侧， x 轴第二标题也不一定非设在上 
方; 但这些都是它们的默认位置。 


(1 2) 设 


yaxis 


( 1 ) 设置了顶部和底部 X 轴的标题。 


xaxis 


标题加在图形之外的文本框内。我们也可以在图形内部的指定位置添加文本框。 

在这一散点图中有几个特异值突现出来。通过细究，它们是华盛顿特区 （ co 2 J ege 的最 

大值，位于图中最右边）、犹他州（最低的 so / nicer 值，位于底部中间）和内华达州（最髙 

的 sinokeT 值，位于上部左边）。正如图 3 . 43 表明的那样，文本框为我们提供了在图中 
说明这些观测案例的途径。选项 text(l 

图中 y 二 15 .5、 x =22 
“ Nevada ” （内华达州）放在 y =33 .5 


"Utah ") 将文字“ Ut ah” 放置在散点 

5 的位置，直接位于犹他州数据点的上方。类似地，我们把文本 

15的位置上，并在该州名字周围画一个方框 
(带有很小的边距，请见 help marginstyle )。 用于解释的三行左对齐的文本被放在 

华盛顿特区数据点附近（其中每一行文字要分别以引号括起来） 

本框或标题都可以有多行；我们分别以一组引号来设定每一行，然后设定对齐 
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(just if icat ion ) 方式或其他子选项。 “ Nevada ” 文本框使用了默认的背景色，然而 
我们对 “Washington DC ” （华盛顿特区）文本框则选择了白背景色（请见 help 

textbox—options 和 help colorstyle) 
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由功能强大的 graph twoway 图族得到的两幅或更多图可以被叠并为一幅统一的 

图，使其中一幅图置于另一幅图之上。第1章的图 1.1 给出了一个简单的例子。 
twoway 图族包括诸如 lfit (线性回归线）、 dfit (二次回归曲线）等若干基于模型的类 

别，以及其他类型。这些图形自身提供了最少量的信息。比如，图 3.44 描述了变量 
sir ? o)ceT 对 college 的线性回归线（数据为 statehealth . dta ) ，图中带有条件平均 

数及其95#置信区间。 

正如图 3.45 中所见，当我们将一幅散点图叠并到一幅回归线图之上后会得到信息 
更丰富的图形结果。为了做到这点，我们实质上是给出两条不同的以“ N ” 分隔的制图 


命令。 


图 3.45 中，第二幅图（散点图）套印第一幅。这一顺序 （ order ) 对默认的线条类型 
( 实心、虚线等）有效，也对每一幅子图 （ sub - plot ) 所使用的标志记号（方形、圆圈等) 
有效。更重要的是，它在置信区间上添加了散点，因此这些点仍然是可见的。用户可以 
试试如果颠倒命令中两幅图的顺序,看看会有什么结果。 
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图 3 . 4 6 进一步采纳了这一想法，通过选项添加了坐标轴标签和图例对该图形加以 
改进。因为这些选项作为整体而不只是作为子选项之一应用于图形，因此这些选项被放 
在第二个分隔符 1 1之后的逗号后面。这些选项中的大部分都类似于前面例子中所用到 
的那些。这里的选项 order(2 1) 做了一件新的 事情: 它忽略三个图例项中的一个，因此 
只有两个图例项（第2项回归线，然后是第1项置信区间）出现在图中。将这一图例和图 
3 . 45 加以比较以查看其中的差别。尽管我们在图 3. 46 中只列出了两个图例项，但是用 

( 3 )设定一个三行的图例格式、仿佛所有三行图例都被保留仍然是必要的。’ 

图3. 4 6中叠并在一起的两幅独立图形 （ lfitci 和 scatter) 共有相同的 y 和 

刻度^0此两者应用同一套坐标轴。当关注的变量具有不同的刻度时，我们需要分别标 
注坐标轴的刻度。图 3 . 47 以叠并两幅曲线标绘图来举例说明这—点，这个图是根据文 

gulf . dta 中的圣劳伦斯湾环境数据制作的。该图将圣劳伦斯湾寒冷的中间层最低 
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graph twoway lfitci sraoiaT college 
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,label(12(2)34) ylabel(14( )32, angle(horizontal)) 
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ytitl ("Percent adults smoking f, ) 
note("Data from CDC and US Census M ) 
legend(order( 1) label(X n 95% c 

rows(3) position(1) ring()) 


or 


regression line") 


)label{ 


平均水温摄氏度 （ ciJ ) 和以平方公里为单位的冬天最大冰面覆盖面积 （ m axarea ) 两幅 
时间序列图合并在一起。关于 cil 的图使用默认状态下位于左边的第一 y 轴 ， yaxis 

(Do 关于 

ylabel 、 ytitle 、 yline 和 yscale 选项每—■个中都包括 axis(l) 或 axis( 2 ) 子 

选项，以表明它们所指向的具体 y 轴。 ytitle 引号内的那些空白提供了一种便捷方式 
将这些标题文字放置在靠近数字标签的地方。（对于不同的方式，请见图 3 . 48 )。包含 

“Northern Gulf fisheries decline and collapse” 的文本框为中等边距；其他 

选择可见 help marginstyle 。 选项 yscale(range ()) 将使用经过试验找到的两个 

时间序列之间的最佳垂直间隔值来定义两个 y 轴的取值范围。 


maxarea 


graph twoway line cil inter, yaxis(1) yscale(range(-1,3) axis(1)) 

_ 
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yline (0) ylabel<-1(. >1. 
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ytitle { ,T 

yline(173• , axis( ) lpattern(dot)) 
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label (1 "Max ice area”）label (2 ” Min CIL temp 11 )) 

note("Source : Hamilton , Haedrich and Duncan (2003) ; data from 
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图 3*47 
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位于图 3.47 中右边的文本框在1980年代晚期和1990 年代早期这段时期处做了 

标记，包括北部海湾鳕鱼在内的主要渔业在该时期都出现萧条或倒闭。正如该图显示的 
那样，渔业萧条是和记录中最持久的严寒和冰雪环境相符合的。 

为了在同一图中放置鳕鱼捕捞量和温度与冰面覆盖面积，我们就需要三个独立的纵 

轴刻度。图 3 . 48 包含三幅图叠并的图形,所有的 y 轴都位于左边（默认状 态）。 三个成 
分的标绘图的基本形式 如下： 


connected maxajrea wintBr 


先将 


对 


画连线标绘图，使用第三 y 轴（将位于我们最后图形的最左 
边）。 y 轴的量度范围是从 - 3 oo 到 + 22 0,不带水平线栅格。它的标题是“ 

该标题被放在“西北”位置处，采用选项 placement ( 


maxarea 


winter 


Ice area , 


1 000 kirT2 

line cil win ter 

再用 ciJ 对 winter 做曲线标绘图，使用第二 y 轴。 y 的量度范围从 -4 到 +3 ,采用默 
认标签。 

connected cod winter 

再用 cod 对 winter 做连线标绘图，使用第一 y 轴。标题位置是“西南”， 

placement 

将这三个成分图放在一起，图 3 . 4 8 对应的完整命令如下所示。对每一个层叠图的 
轴范围都是根据试验找到的三个序列之间“恰当”垂直间隔量而定的。应用于整个图形 

的选项，还将分析限定在1959 年以来的年份，并设定了图例和 

垂直的栅格线。 


0 


1 甲奶 


y 


轴标签，还要求加上了 


使用 Do 丈件制 




像图 3 . 48 这样的复杂图形要求 graph 命令有许多行，每行都很长（尽管 stata 将 

整个命令只作为一个逻辑行 ） 。第2章中介绍过的 Do 文件有助于编写这类多行的命令。 

它们也使得易于保存这些命令以备将来再用，也许我们以后还需要对这个图形进行修改 
或重画该图形。 
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axis{3) placement(nw)) 


clp 


yscale(range(-4,3) axis (2)) 


axis(2)) clpattern{solid) 


TV 


es C 

s (1) yscale(range(0 / 200) axis{1) 


t 


y 


"Cod catch 

win ter > 1 


axis(1) placement(sw)) 


el (1 Tf Max 
el (3 "Cod catch”）rows (3)) 
grid) 

eplace); 
t replace ; 


ice area 




K )0 f 应用 STATA 做统计分析 


这个 do 文件的第一行设定用英文分号 （；） 作为一行结束的分隔符。因此 ， Stata 
此后直到遇到一个分号时，才会认为一行已经结束。第二行只是重新读人画出图3 .48 
所需的数据集 （ guJf . dta ); 请注意结束本行的就是分号。较长的 graph two way 命令 
占用了接下来的15行，但是 Stata 将这些行看作是以选项 saving () 后的分号表示 
结束的一个逻辑行。该选项将图形存成 Stata 的 . gph 格式文件。 

接下来，命令 graph export 以封装后记格式 （Encapsulated Postscript 
format ) 创建了同一图形的另一个版本，正如文件名 fig 04 一84 .eps 中的扩展名 .eps 
所表明的那样。（键人 help graph„export 了解该命令的更多内容，该命令对于编写 
将重复创建图形的程序或 do 文件特别有用） 

do 文件最后的 #delimit cr 命令重新设定回车作为行结束的分隔符，以回到 
Stata 的常规模式。尽管它在纸上是不可见的， #delimit cr 这 一 行自己必须以回车 
(提 示:即 Enter 键)来结束，于是在 do 文件的结尾创建了最后的一个空白行。 


取出与合并图形 


通过 graph use 命令，任何保存为 Stata 中“活的 "（ live ) . ghp 格式的图形随 
后都能取到内存中来。比如，要取出图3 .48 ，我们键人以下 命令： 

.graph use f±g03_48 

一旦图形在内存中,它就被显示在屏幕上，并能被打印或者再次以不同的名称或格式加 
以保存。从先前以 . gph 格式保存的图形，我们随后可以存成诸如后记 （ p ostscript ， 
扩展名为 .ps )、便携网络图形 （Portable Network Graphics ，扩展名为 . png ) 以及 

增强型视窗图元文件 （Enhanced Windows metafile , 扩展名为 . emf ) 等其他格式的 

版本。我们也可以通过菜单、或者直接在 graph 

scheme ) 。图形 fig 03_48 .gph 是采用 s 2 单色方案加以保存的，但是我们可以通过键 

人以下命令来看看它用 si 颜色方案会怎么样。 

, graph use f±g03 47 f scheme(slcolor) 


命令中改变颜色方案 （ color 


use 


保存在磁盘上的图形也可以通过 graph combine 命令加以合并。这提供了一种 
将多个图形合并成同一图像的方式。为了举例说明这点，我们回到前面在图3 .48 中显 
示的圣劳伦斯湾数据。以下命令画出了三幅简单的时间图（未显示），将它们以 

fig 03_49 a . gph 、 fig 03 —49 和 fig 03 _49 c.gph 的名称加以保存。子选项 

margin( medium) 设定每幅图中标题文本框的边距宽度。 

为了合并这几幅图形，我们键人以下命令。因为三幅图具有相同的 x 尺度，因此将 

这些图形垂直排列成三行是有意义的。选项 imargin 设定图 3 . 4 9中每幅图周围的“极 
小”边距。 


键人 help graph 一 combine 查看有关这一命令的更多信息。选项控制还包括行数 

或列数、文本和标志的大小（否则会随着图形数量的增多而变得太小）以及各个图形之间 

的边距等细节。它们也可以设定二维图的 x 或 y 轴是否具有共同的尺度，或者对所有的 

成分指定一个共同的颜色方案。标题也能被加人到一幅合并的图形中，该图能被打印、 
保存、取回或者为了再次以通常的方式进行合并。 
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ter > 1964, xtitle( n 11 ) 


graph twoway line 

xlabel (1965 (5) 2000 f grid) ylabel(50(50)200, nogrid) 
title (” Maximum winter ice area", position(4) ring(0) box 


maxarea wxnter i 


j. 


margin (medioim)) 

ytitle ( ,? 1000 km A 2 n ) saving (f±g03_49a) 


ter > 1964, xtitle( ff f, ) 


graph twoway line cil winter 

xlabel(1965(5)2000, grid) ylabel(-1(•5>1,5, nogrid) 


title("Minimum CIL temperature' position(1) ring (0) box 

margin(medium)) 

title("Degrees C ”） saving 49b) 


Vi 


ter if winter > 1964 f xtitle ( 11 n ) 


graph twoway line cod 

xlabel(1965 (5)2000, grid) ylabel(0(20)100, nogrid) 
title("Northern Gulf cod catch", position(1) ring(0) box 


j. 


margin(medium)) 

ytitle ( n 1000 tons' 1 ) saving (fig03_49c) 


fig03_49b.gph flg03_49c 


graph combine fig03_49a 

imargin(vsmall) rows(3) 
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我们最后的例子示范了好几个这种 graph combine 选项，并且建立具有不等规模 

分图的合并图。假如我们想要一幅类似于前面图 3.42 那样的吸烟与大学毕业生的散点 
图，但是还要在各自坐标轴旁画出 y 和 x 变量的箱线图。使用 stateheaJth . dta , 我 
们可以尝试着使用以下命令首先画出一幅 s / no ； ce ： r 的垂直箱线图、一幅 smokeT X ^ 
college 的散点图以及一幅 college 的水平箱线图，最后再将这三幅图合并成一个图 
像（未显示）。 


graph box smokeT f saving( wrongl ) 

graph twoway scatter smokeT college, saving( wrong2) 

graph hbox college f saving( wrong2) 
graph combine wrongl.gph wrong2. gph 


wron 


但是，由以上命令得到的合并图形看起来是错误的。我们将得到两幅宽大的箱线 
图，每一幅都与散点图一样大，并且其坐标轴也未加以对齐。为了得到一个更为满意的 
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版本，我们需要从创建一幅 SiTJC ^ eT 的很窄的垂直箱线图开始。以下命令中的选项 
fxsi Z e(20) 将图形的 x ( 横轴）固定为正常幅度的20%，这将导致一个正常高度但只有 

20%宽度的图形。考虑到在最终图形中将会出现的间隔，还增加了两行空白的说明。 


graph box smokBT, fxsize (20) caption ( ,r IT n 11 ) 

ytitle ( n 11 ) ylabel (none) yticlc (15 (5) 35 , grid) saving {fig03 50a) 


对第二个成分，我们创建一幅 smokeT 对 college 的简单散点图。 


graph twoway scatter 3mokeT college, 

ytitle( M Percent adults smoking") 
title("Percent adults with Bachelor's degrees or higher ”） 
ylabel{, grid) xlabel{, grid) saving(fig03 50b) 




第三个成分是一幅 college 的很扁的水平箱线图。该图应当具有正常的宽度，但 
是 y (纵轴）固定在正幅度的20%。为了保持间隔，也增加了两列空白的左标题 


graph hbox collmge f f ysize (20) 11 title ( M M ) 12 title ( f, ) 

ylabel(none) ytick(10(5) 35, grid) ytitle("") saving( fig03_50c) 


这三个成分在图 3 .50 中合并在一起。 graph combine 命令的选项 cols (2) 将 

图形排成两列，就像有一个空单元格的2乘2表格。选项 holes(3) 设定空单元格应当 
是第三个，因此我们的三个成分图形填人了位置1，2和4。岀于可读性的考虑， iscale 

(1.0 S ) 将标志记号和文本放大了大约5%。我们在初始箱线图中增加的空白说明和标 

题弥补了散点图每一坐标轴上的两行文本 ( 标题和标签），因此两个箱线图与散点图的坐 
标轴对齐了 （ 尽管不是很完美）。 


graph combine fig03_50a.gph f±g03_50b.gph f±g03 50c 

cols(2) holes(3) 


cale(1.05) 


3 .50 
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to higher 
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概要统计及交互表 


可以对测量型变量做简单的描述性统计，比如，计算变量的中位 
数、平均数及标准差。而 tabstat 命令则可以进行更加灵活的概要 统计。 对于定类或 
者定序变量， tabulate 命令可以获得频数分布表、交互表、分类检验以及进行关联度测 
量，此外， tabulate 也可以根据其他变量的类别创建有关平均值及标准差的一维或者 
二维表格。 table 作为一般性的表格创建命令，可以创建多达七维的交互表，表中的单 

元格包含诸如频数、总和、平均数或者中位数等统计量。在本章的最后，我们将进一步探 
讨单变量的操作程序，包括正态性检验、变量转换以及展示探索性数据分析 （ EDA )。 本 

章所涉及的大部分分析既可以通过所列出来的命令来完成，也可以通过菜单进行选择: 


命令 


summarize 


Statistics-Summaries , tables & tests 


Stata 除了这些一般目的分析方法之外，还提供许多流行病学家感兴趣的交互表方 
法。虽然本章没有对此进行描述，但是读者可以通过键人 help epitab 查看相关的信 

息 。 Selvin ( 1996 ) 对此也进行过 介绍。 


命令承 


yl y2 y3 


summarx 


对所列变量计算简单的概要统计指标（平均数、标准差、最小值和最大值、观测案例 


数）。 


yl y2 y3 r detail 


summan 


获取详细的描述性统计，包括百分位数、中位数、平均数、标准差、方差、偏度、峰 


度等 


yl if xl > 

只计算 xl 大于3且 W 不是缺失值条件下的变量 yl 的概要统计指标。 

yl [fweight 


2 < 


summarize 


],detail 


summarx 




利用变量 w 作为加权变量进行频数加权，计算 yl 详细的概要统计。 


tabstat yl f stats(mean sd skewness kurtosis n) 

只计算变量 yl 的具体指定的概要统计指标。 

yl f stats( 


p5 p25 p50 p75 p95 max) by (xl) 


tabstat: 
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按变量 Xl 的每个类别，分别计算测量型变量 yl 的具体指定的概要统计（最小值、第 

5百分位数、第25百分位数，等等）。 


tabulate xl 


显亦变量 xl 所有非缺失值的频数分布表。 


tabulate xl , sort miss 


显示 xl 所有值的频数分布，包括缺失值。同时，按频数大小对行（变量值）进行 


排序 


.tabl xl x2 x3 

对所列变量分别创建频数分布表。 

* tabulate xl x2 

显示一个两变量交互表，其中 xl 为行变量， _ x 2 为列变量。 

• tabulate xl x2 , chi2 nof column 

创建一个交互表，并对两变量的独立性进行皮尔逊卡方 （ Pearson /) 检验。每一 
单元格内不再显示频数而是给出列百分比。 

tabulate xl x2 f missing row all 

创建一个交互表，在计算频数和百分比时把缺失值包括在内。同时，计算“所有”可 

用的统计量 （ 皮尔逊卡方 （ Pearson ^ 2 )和似然比卡方 （ likelihood - ratio ^ 2 ) , 

Cramer 的 V 检验， Goodman 和 Kruskal 的 gamma 检验以及 Kendall 的 检验） 

tab2 xl x2 x3 x4 

创建所列变量的所有可能的二维交互表。 

tabulate xl 

创建一个一维表，显示 Xl 每个类别中变量 Y 的均值、标准差及频数。 

tabulate xl x2 f summ(y) 

创建一个二维表，显示 xl 和 W 每一种组合下 y 的均值。 

3 r sort 

创建一个三维交互表，在 x 3 的每一个取值下创建 xl ( 行）和 x 2 ( 列）的分表，并为每 
个分表计算费舍精确检验 （ Fisher ’ s exact test )。 命令 by 

可以作为任何有意义的 Stata 命令的前缀发挥作用。如果数据已经根据变量名 
varname 进行了排序，那么这里的 sort 选项就没有必要了。 

table 

创建一个五维交互表，其中 X 4 为大行1 、 x 5 为大行 2 ， x 3 为大列，构成基础三维表， 
然后其中每个交互单元都是 y (行）和 ( 列）的二维交互表,每个单元格包含频数。 

tabl 

创建 xl (行)和 W ( 列）的二维交互表，单元格包含 yl 的平均数和 y 2 的中位数。 


TO 


(y) 




means 


tabulate xl x2 f exact 


y 


varname ， sort : 几乎 


2 


by ( 


x5) contents(freq) 


y 


1 


2, contents(mean yl median y2) 


走距史量的描迷性统计 


数据集 


dta 包含了美国佛蒙特州某镇居民的信息。例行的州检验发现，在 


VTtown 


byte 

byte 

byte 

byte 

byte 

byte 


19.26797 

16.95466 


Mean 

Std. Dev 


15 


Largest 


* 


65 


29 


287.4606 
1.208804 
4.025642 


Variance 

Skewness 
Kurtosis 


65 


42 


68 


55 


81 


68 


Smallest 


153 


Obs 


153 


Sum of Wgt 


% 8 * Og 


byte 


detail 命令输出包括基本统计量再加上以下各项 指标： 

特别是第一个四分位数 （ quartile ， 即第 2 5百分位 

数）、中位数 ( median ， 即第50百分位数）和第三个四 

分位数(第75百分位数）。因为许多样本数据不能平 
等地进行四分或者其他的标准划分，这些百分位数通常 

是近似值。 

通常可以显示出特异值。 

Stata 能识别四种类型的权数:分析权数 (aweight ) 、 
频数权数（ fweight ) 、重要性权数 （ iweight ) 、抽 
样权数 （ pweight )。不同的程序认可和允许不同的 
权数。比如， 


这个 

百分位数 （ percentiles) : 


summarize, 


四个最小值和四个最 大值： 

权数和 （ sum of weights) 


detail 命令允许使用 


summarize, 


Respondent 1 s gender 
Years lived in town 
Have children <19 in town? 
Highest year school completed 
Attended meetings on pollution 
Believe own property/wate 

contaminated 
School closing opinion 


sexlbl 


kidlbl 


kidlbl 

contamlb 


r 


close 


gender 

lived 

kids 

educ 

meetings 

contain 


school 


Sorted by: 


要得到变量 ved( 受访者在本镇所住年数）的平均值和标准差，键人 


lived 


summary 


Max 


Min 


Std. Dev 


Obs 


Mean 


Variable 


81 


16.95466 


19.26797 


153 


lived 


这个表还给岀了非缺失观测值的数目以及变量的最小值和最大值。如果我们只键入 

而没有列出变量，我们将获得数据集中每一个数值变量的平均数和标准差。 

要想看到更详细的概要统计，键入 


summarize 


lived f debai X 


summarx 


Years lived in town 


value 

label 


storage display 

format 


variable label 


variable name 


type 
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概要统计及交互喪 


4 


供水中有微量的有毒化学物质，随后对此专门做了一项调查。在几口私井里和公立学校 
附近，有毒化学物质的浓度最高。担忧的市民召开了好几次会议讨论这一问题的可能解 

决途径。 


Contains data from C:\data\VTtown.dta 

153 


(Hamilton 1985) 


VT town survey 
11 Jul 2005 18:05 


obs 
var s 
size 


1 683 (99.9 % of memory free) 
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aweight 或者 fweight 0 ^ help weights 命令 

可以看到更多这方面的说明。 

标准差 （ standard deviation ) 的平方（更恰当地 

说，标准差等于方差的平方根）。 

不对称的方向和程度。 一 个十分对称分布的偏度值等 
于0。正偏度（右边尾巴拖得较长）的偏度值大于0;负 
偏度(左边尾巴拖得较长）的偏度值小于0。 

尾重 （tail weight )。 正态 （ normal ， 或称高斯， 

Gaussian ) 分布是对称分布，其峰度值等于 3 。 如果 

一个对称分布有着比正态分布更长的尾巴（即呈尖峰 

状），那么它的峰度值 >3。如果峰度值 <3则表明比正 
态分布的尾巴短。 

tabstat 命令也可以做概要统计，但是它比 summarize 更灵活。我们可以明确规 

定我们想获取的概要统计指标。 例如： 


方差 ( 


variance 


偏度 （ skewness ) 


峰度 ( kurtosis ) 


tabstat lived f stats(mean range skewness) 

variable 


range skewness 


mean 


lived I 19.26797 


80 1.208804 


加一个 by(varname) 选项, tabstat 便会创建一个表格，它包括 

下的概要统计。下面这个例子包括 grender 每一类下变量 lived 的平均数、标准差、中 
位数、四分位距 （ interquartile range ) 以及非缺失观测值的数目 

都表明样本中的妇女居住本镇的平均时间比男性短好几年。需要注意的是中位数一栏 

被标为 “ pSO ” ，意思是第50百分位数。 


每个取值 


varname 


平均数和中位数 


o 


tabstat lived f stats(mean 

Summary for variables : lived 

by categories of: gender (Respondent 




median 


)by (gender) 


xar 


gender) 


s 


gender 


sd 


mean 


p50 


iqr 


N 


male [ 23.48333 19,69125 

female | 16.54839 14.39468 


19,5 


28 


60 


13 


19 


93 


Total I 19.26797 16.95466 


15 


2 4 


153 


tabstat 命令的 statB( ) 选项可以包括下列统计量 

平均数 

非缺失观测值总数 
等同于计数 




count 


count 


总和 


最大值 

最小值 

极差=最大值-最小值 
标准差 


min 


range 




方差 


var 


变异系数=标准差/平均值 


v 


标准误=标准差 /▲ 


semean 

skewness 


偏度 
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峰度 


kurtosis 

median 


中位数（等同于第 50 百分位数， PS 0 ) 

第1百分位数（同理， 

四分位距=第 75 百分位数-第 25 百分位数 
四分 位数; 等于指定了第 25 、 第 50 和第 75 分位数 
另外， tabstat 的选项还可以控制表格输出的格式和标签。要想查看 tabstat 选项 
的完整列表，请键入 help tabstat 。 

summarize 或者 tabstat 命令取得的统计指标对当前的样本进彳了了描述。我们 
也可能想对总体进行推断，比如，创建变量 hved 平均值的"％置信 区间： 


plO 、 p25 ,p50 、 p75 、 p95 或 p99) 


1 


igr 


lived, level(99) 


[99% Conf. Interval] 


StdL Err 


Mean 


Obs 


Variable 




22.84354 


15.69241 


1.370703 


19.26797 


153 


lived 


基于这个样本，我们有 99% 的信心认为总体的平均值会落在 15. 69 -22.84 年这 
个区间内。在这里，我们用 level( ) 选项具体指定一个99%的置信区间。如果我们忽 

略这个选项， ci 命令会默认做出一个 95 %的置信区间。 

使用其他选项可以使 ci 计算那些服从二项分布或者泊松分布的变量的精确置信区 

间。与 ci 相关的一个命令是 
发表的论文中碰到的那些，来计算正态分布、二项分布或者泊松分布的置信区间，而它并 
不需要原始数据。可以键入 help ci 获取有关这两个命令的详细内容。 


它可以直接根据概要统计指标，比如，我们可能会在 


CX1 ， 


採测性教据分析 


统计学家 John Tukey 发明了一整套探测性数据分析 （exploratory data 
analysis , 简称 EDA ) 方法，不用一些无关紧要的假定，用一种探测性地和怀疑地方式来 

分析数据（见 Tukey , 1977 ;以及 Hoaglin，Mosteller 和 Tukey ，1983，1985 )。 

我们在第3章介绍的箱线图就是 Tukey 最有名的发明之一。 Tukey 的另一项发明则是 
茎叶图，这是一种对数据值进行排序的图，每一观测数据值的前位数构成了“茎”，而后位 
数则组成了“叶”。 


• stem lived 

Stem-and-leaf plot for lived (Years lived in town} 


0* [ 11111112222233 3333334-9444 44 4 

0. I 555 55555555566 66 666677788 99 99 
1* I 0000001122223333334 
1 . I 55555567788899 
2* I 000000111112224444 

56778899 
00000124 
3. I 5555666789 

0012 


2 


4 


59 


00134 


556 


5 


5558 





15 


5 


17 


3 


21 


2 


27 


30.75 


33 


34.5 

37,75 


41 


spread pseudosigma 

17.9731 
15.86391 
16.62351 
16.26523 
15.15955 
14.59762 
15,14113 
15 - 32737 


2 4 


36 


50 


59,5 


64 


67 


73.5 


80 


M 


7 7 


F 


39 


E 


20 


D 


10.5 


C 


5 ■ 5 


B 


2 


A 


Z 


表示中位数，表示“四分位数”（与 
另一种近似计算方法来计算四分位数）。 

等分割点之外的分布情况。第二列数给出了每个字符值的“ 深度” 或者说是离最近极值 
的距离。在图中心的方框内，中间的一列给出了“中间概要值”，它们分别是两个字符值 
的平均值。如果中间概要值背离中位数，就像上图变量 Jived 显示的那样，就告诉我们 
此变量分布越接近尾部的部分就越偏。“ spread ”（ 展开）这一列表示每对字符值的差， 
比如， F 的 spread 等于近似的四分位距。最后，右端一■列的 “ pseudosigma ” （伪 cr ) 
计算的是假定这些字符值描述的是假定为正态分布总体时的标准差 

又被称作“伪标准差 ” （pseudo standard deviation , 简标为 PSD) ，它是针对对称分 

布的近似正态性问题提供的一种简易的而且抗特异值影响的检验。 

① 比较平均数和中位数以诊断总体的 偏态： 

平均数 >中 位数: 正偏态 

平均数 = 中位数:对称 

平均数 < 中 位数: 负偏态 

② 假如平均数和中位数近似，则表明对称，然后比较标准差和伪标准差 psd ， 这有助 
于我们评估尾部正 态性： 

标准差> PSD ： 比正态分布的尾重大 （ heavier - than-normal 
标准差=正态分布尾重 （normal tail ) 

标准差< PSD ： 比正态分布的尾重轻 （ lighter - than-normal 

令 '和 F 3 分别表示第1个和第 3 个四分位数（近似于第 25 百分位数和第75百分 

I 

那么，四分位距 IQi ? 等于 F 3 ，并且有 


detail 和 tab ， 


不同，它采用 


suimnarize ， 


C 等分别表示大约在1 /8 、1 /16.1 /32 


F 行的伪^有时 


tail ) 


tail ) 


位数）。 


PSD 二 IQR/1 .349 


# below 


# above 


inner fence 
outer fence 


-31 


65 


5 


-67 


101 


0 


键人 help stem 可以得到有关其他选项的信息。 

字符数值表 （ IV) 利用序次统计量来解剖分布状况。 

. 1 lived 


# 


153 


Years lived in town 


tem l ± ved f lines (5) 


在这里， stem 自动选择了一个双茎形式的茎叶图，其中 1* 表示首位数是 1 和第二 
位数是0 〜 4 ( 也就是指那些已经在本镇住了 10 〜 I 4 年的受访者）^ 1. 则表示首位数是 
1 和第二位数是 5 -9(15 -19 年）。我们可以用 lines () 选项控制每个首位数的列 

的数量。例如，在一个五茎形式的茎叶图中， 1* 表示持有叶子0〜 l,lt 表示持有叶子 

3 ， lf 表示持有叶子 4 -5,1s 表示持有叶子 6 ~7 ,1 . 表示持有叶子 8 〜 9 。 要获取 
这种五茎形式的茎叶图， 键人： 


2 


J 08 I 


应用 STATA 做统计分析 










99255851 
2 3 5 - 6 6 _ 8 
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命令 lv 也可以识别那些轻度和严重的特异值。当一个 X 的值处在内栅栏之外但还 
在外栅栏之内时，我们称之为“轻度特异值”： 

F, - 31QR 砭 x < F, - 1. 5IQR 或者 F 3 + 1. 5IQR < x ^ + 3IQR 

假如 x 的值处在外栅栏之外，那么它就是一个“严重的特异值”： 

F, - 3IQR 或者 

lv 命令给岀了这些分割点以及每种类型的特异值的数目。外栅栏之外的严重的特异值 
在正态总体中很少发生（大约为百万分之二）。蒙特卡罗模拟显示出，从规模为15至规 
模约为20 000的样本中,任何严重特异值的存在都足以成为在显著水平为0 .05 的条 
件下 拒绝正态性假设的充分证据 （ Hamilton ， l " 2 b )。 严重的特异值会给许多的统计 

技术带来问题。 


> F 3 + 3IQR 


X < 


X 


stem 和 lv 都证实变量 lived 的样本分布为正偏态，根本不像理论 
上的正态曲线。下一节将介绍更为正规的正态性检验以及能减少变量偏态的数据转换 


summarize 


、 


方法 


正卷牲格發和教据转换 


许多的统计程序只有在变量服从正态分布时才能工作得最好。上一节我们所介绍 
的检验近似正态性的探索性方法扩展了在第3章所介绍的图形工具（直方图、箱线图以 

及分位 一正态 图）。有一种更为正规的偏度一峰度检验，它利用命令 
detail 显示的偏度和峰度统计值来检验虚无假设，即手头的样本是来自一个正态分布 

总体。 


summarize ， 


sktest lived 


Skewness/Kurtosis tests for Normality 


j oint 


Prob>chi2 


Pr(Kurtosis) adj chi2(2) 


Variable | Pr{Skewness) 


0.0000 


24.79 


0,028 


0.000 


lived I 


这里， sktest 拒绝了正态性 假设: 变量 J i ved 无论是在偏度 (P = 0.000) 还是在峰度 
( P = 0.028)， 抑或是把两者结合在一起考虑 （ P =0. 000 0) 都表 现出显 著的非正态。 

Stata 只显示保留三位或者四位小数的概率,“0 .000 0” 其实表明 P 

其他的正态性检验或者对数正态性检验包括 Shapiro-Wilk 的 W 检验 （ swilfc ) 以 

及 Shapiro-Francia 的 P /’ 检验 （ sfrancia ) 。键人 help sktest 查看这些选项的 

信息。 


0 .000 05 


数据的非线性转换，比如，取平方根和求对数，经常被用于改变分布的形态，其主要 
目标是使那些偏态分布更加对称，也许就更接近于正态。转换也有助于确立变量之间的 

线性关系（第8章）。表 4.1 展示了一种被称作“幂阶梯 ”（ ladder of powers ) 
( Tukey ,1977) 的升级方法，它可以指导我们选择合适的转换以改变分布的形态。变量 

lived 呈现岀轻度的正偏态，因此它的平方根可能会更加对称。我们可以通过键入下列 
命令创建一个新变量，使之等于变量 lived 的平 方根： 


generate srlived 


lived 


我们也可以用 sqrt ( lived ) 来代替 lived \ 5 ，两者作用完全相同。 

取对数是另外一种转换，它可以降低正偏态。要想创建一个新变量，使它等于变量 





no I 应用 STAT/V 做统计分析 


Jived 的自然对数(底为 e )， 键人 


generate loglived = In(lived) 


在幂阶梯方法及相关的转换方法（如 Box-Cox 方法）中，对数其实是取代了 “0” 次方的 

位置，它们对于分布形态的影响介于0 . 5 次方（即平方根）和 - 0.5 次方（即平方根倒 
数）转换之间。 


4 .1 幂阶梯 


Stata 输出标签 


转换 


公式 


效果 


cube 


立方 


减少严重负偏态 
减少轻度负偏态 
没有变化 ( 原始数据 ) 
减少轻度正偏态 


new = old^3 

old^2 


平方 


square 


new = 


原始 


raw 


old 


平方根 
自然对数 log 


square-root 


new - o!d^*5 

new = ln(old) 

loglO(old) 减少正偏态 
-{old-- .5 ) 减少严重正偏态 

-( old^l) 减少非常严重正偏态 

= -(old^2 ) 同上 

- ( o!d"-3 ) 同上 


log e (or log 10) 


(或 log 10 ) 


new s 


negatine reciprocal root 平方根负倒数 

negatine reciprocal 


new ^ 


负倒数 


new 二 


negatine reciprocal square 平方负倒数 
negatine reciprocal cube 立方负倒数 


lie 


new ^ 


当我们在乘方次数从负数向 0 提高时，那么取结果的负值 便保阐 了原来的顺序，即 
原变量 oJd 的值越大，其转变后新变量 new 的值也就越大，反之亦然。当原变量 oJc ? 本 
身包含负值或零时，在进行转换之前必须先加一个常数。例如，假如变量 

的是一个人曾经被逮捕的次数(很多人为0次），那么一种比较合适的对数转换是： 

= In(arrests + 1) 

ladder 命令把幂阶梯和日 ktest 的正态性检验结合在一起。它尝试幂阶梯上的每 
一 种幂并报告其结果是否显著性地非正态。我们可以利用具有严重偏态的变量 
( 人均能源消耗)来加以展示, energy 这个变量来自数据集 states . dta n 

ladder 


测量 


arrests 


generate larrest 


energy 


energy 


Transformation 


formula 


chi2(2) 


P (chi2) 


cube 

square 

raw 

square-root 

log 

reciprocal root 
reciprocal 
reciprocal square 
reciprocal cube 


energy^ 3 

energy A 2 

energy 
sqrt(energy) 
log (energy) 

1 /sqrt(energy) 

1 /energy 

1 / (energy^2 ) 

1 / (energy A 3 ) 


53.74 

45.53 

33,25 

25.03 

15.88 

7.36 

l 32 
4 * 13 
11.56 


0.000 
0.000 
0,000 
0.000 
0.000 
0.025 

0.517 

0 • 127 
0.003 


从结果看，倒数转换 1 /feneirgy (即 

(包括原始数据）都显著性地非正态。图 4 .1 ( 由命令 gladder 创建）通过比较每一种 
转换的直方图与正态曲线，直观地支持了这个结论。 


) 最接近于正态分布。其他的大部分转换 


energy 


^l&cider energy 
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图 4.1 


cubfe 


square 


S 

■ 
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图 4.2 显示的是一组相应的幂阶梯转换的分位一正态图，它们是通过“四分位阶梯” 
的命令 gladder 取得的。在这个例子中，为了使这些小图更具可读性，我们可以使用选 
项 scaled.25) 按25%比例增大绘制标签和符号。坐标轴标签可以通过选项 

ylabel(none) xlabel(none) 进行隐藏。 

• qladder energy, scale (1.25) ylabel(none) xXabel (none) 

■ 

® 4.2 


itiri 


(cm 


1/cubib 


1/square 


Percapita ©nrgy conisiim© 汍細 


0知埔 ㈤ n 娜斜 P_ by trd^1brm«tton 


_ 

• • 


另一项转换技术就是 Box - Cox 转换，它可以自动在转换方法中选择（对于分析者来 
说比较容易，但并不总是一件好事）并提供细微的层次。命令 bcsfcewO 可以为 Box-Cox 
转换寻找 A 值， 


(A) 


= I / - 1 1 /A ， 


当 A > 0或入 < 0 


y 


或者 


U ) 


当 A = 0 


= ln ( y ) ， 

这样便使: K U ) 的偏度近似于0。把它应用到变量 energy ， 我们得到转换变量 banergy 


y 


bcskewO benergy 


energy, level(95) 
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Transform 


[95% Conf , Interval] 


L 


Skewness 


(energy A L-1) /L | 

(1 missing value generated) 


-1.246052 


-2.052503 


6163383 


000281 




•* 


學 


就是说 = ( energy 


一 1 .246 


1)/( -1 .246) 是一种合适的转换，它最接近于 
对称(根据偏度统计量的定义）。 Box - Cox 的参数 A = -1 .246 与我们在幂阶梯上的选 
择 （-1 阶）的差别不是很大。 A 的置信区 间为： 




- 2_ 052 5 < A <-0.616 3 

它使我们拒绝其他一些可能的转换，比如，对数 （A =0) 或平方根 （A =0.5)。第8章将 

介绍 Box-Cox 方法在回归模型中的应用。 


频教表和二綠文互表 


土面介绍的方法适用于定距变量，而定类变量则需要其他的方法，比如，频数表。返 
回到前面所用的数据集 VTtown.dta ，通过定类变量 meetingrs 频数表，我们可以取得 
参加有关污染问题会议的受访者比例。 


tabulate jneefriiigs 


Attended | 
meetings on 
pollution I 


Fr eq 


Percent 


Cum 


no I 
yes I 


106 


69.28 

30.72 


69.28 

100.00 


4 7 


Total 


153 


100*00 


tabulate 可以为有极多取值的变量创建频数分布表。不过，要想为这样的变量创建一 
个易操控的频数分布表，你最好先对那些值进行分组，这需要用到 

它的选项 recode 或者 autocode (见第2章,或键人 help generate ) D 

tabulate 命令后面加两个变量名就会创建一个二维交互表。例如，这里有一个根据 
kids (受访者是否有 I 9 岁以下的孩子住在本城)所创建的 关于爪 eeti /] gs 的交 互表： 

tabulate 


命令以及 


generate 


meetings kids 


Attended 

meetings | Have children <19 in 

on 

pollution 


town ? 


no 


yes 


Total 


no 

yes 


52 


54 

36 


106 




47 


Total I 


63 


90 


153 


在上表中，第一个列出的变量构成了表的行，而第二个变量构成了表的列。我们可 

以看到在这 1 S 3 名受访者中只有11人既没有19岁以下的孩子住在本城，同时又参加 
了会议。 


tabulate 有许多对创建频数表非常有用的 选项： 

等同于选项中包括 chi2 、 lrchi2 


all 


taub 、V 各 

项。对于一个特定的频数表来说，并不是所有的这些选项都 
是合适的 




和 taub 假定两个变量都是定序变量，而 

chi 2 、 lrchi2 和 V 则没有如此假定。 

在二维表的每一个单元格内显示皮尔逊卡方。 


^TmTiTP] 


cchi2 
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显示每一个单元格内的频数的总百分比。 

对行变量和列变量独立的假设进行皮尔逊卡方检验。 

显示一个二维表中每个单元格对似然比卡方的贡献。 

显示每个单元格的列百分比。 

费舍的独立性精确检验。当表中有些单元格的期望频数很 
少时，此检验优于 chi 2。 但是在很大的表格中，这种检验运 

行太慢而显得不够实用。 

在假定独立性成立的情况下，二维表的每个单元格内的期望 
频数。 

Goodman 和 Kruskal 的等级相关系数 y ( gamma ) ，并计算 
它的渐进标准误差 （ ASE ) 。这是基于同序对 （concordant 

pairs ) 和异序对 （discordant pairs ) 的数量（忽略同位 

秩， ties ) 对定序变量相关度的一种测量。值域为 -1 矣 


cell 

chi2 

clrchi2 

column 


exact 


expected 


创造 一 组名为 newl 、 new 2 等的虚拟变量以代表原来列表变 

量的取值。 

对独立性假设的似然比卡方检验。如果表格中有任意的空 
单元格，将不能获得结果。 

matcell (matname ) 把报告的频数保存在变量服 tname 中。 3 

matcol (matname ) 把 1 

) 把 r 


generate (new) 


lrchi2 


c 列的不重复数值保存在变量 matname 中。 

1行的不重复数值保存在 matname 4* 0 5 

把缺失值也作为表的一行或一列。 

不显示单元格频数。 

停止显示表格上方的表格注释 （ key )。 只要单元格要计算 
个以上统计量时，程序默认显示表格注释，否则将不显示。 
命令选项 key 将强制显示表格注释。 

显示数值而不是数值变量的值标签。 

对一维表提供简单的相对频数条形图。 

表示作为自变量被指定给 tabi 命令的即时数据将作为当 

前数据被保留在内存中，并且替代那里的任何数据。 

显示每个单元格的行百分比。 

按照频数的降序方式显示行 （ 如频数相等的话按变量的升序 

显示）。 


matrow 




missing 

nofreq 

nokey 




nolabel 

plot 

replace 


row 


sort 


) 在创建频数表时，排除那些 varname = 0 的观测值。相同的 

0组的所有数据来确定，因此表中 


subpop (v 




饤和列由包括 

可能会有一些频数是0 d 

输岀 Kendall 的 ( tau - b ) 及其渐近标准误 （ ASE ) 。这一 
指标测量两个定序变量之间的相关。 taub 虽然与 


varname 




taub 


类 




3 【译 注 : 供 编程使用。】 
4 【译 注 : 供 编程使用。】 
5 【译 注 : 供 编程使用。】 
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似，但是它对同位秩采取了一种修正。值域为 -1<T a ^1 o 
Cramer 的 V ( 注意是大写）是一种名义变量关联度的测量。 
在 2 x2 表中，有 -1 矣\^1。在更大的表中，值域为 0 矣 
要求 Stata 不要为了增加可读性而对宽的二维表格做自动 
换行。除非特别指定了 wrap ， 通常出于可读性考虑，宽表会 
被分成几个小表。 


V 


wrap 


对变量 
和卡方检验，键人 


tings 和 kids 做交互表，取得列百分比（因为列变量 Arids 是自变量) 


i??ee 


tabulate meetings kids , column chi 2 


I Key 


t frequency | 

I column percentage | 


Attended | 

meetings I Have children <19 

on [ 

pollution 


in 


town? 


yes I 


Total 


no 


no 


52 


54 


106 


82*54 


60.00 


69.28 


yes 


11 


36 


47 


17.46 


40.00 


30.72 


Total 


63 


90 


153 


100*00 


100.00 


100.00 


Pearson chi2(1) 


8*8464 


0.003 


Pr 






从结果看，在有孩子的受访者中有 4 o %参加了会议，而没有孩子的受访者中只有大 
约 I 7 %的人参加了会议。两变量的关联度统计性显著0.003 )。 

偶尔我们可能需要在没有原始数据的情况下重新分析一个发表的 表格。 有一个专 
门的命令 tabi (“直接” （ 


diate) 做表）可以完成这项工作。在命令行上键人单元 

格频数，行之间用“ \”隔开。这里，我们示范在只给定四个单元格频数的情况下如何用 
tabi 做前面的卡方 分析： 


lirane 


tabi 52 54 \ 11 36, column chi 2 


I Key 


I frequency | 

I column percentage | 


+ 


col 


row 


2 I 


Total 


52 


54 ! 

60.00 I 


106 


82.54 


69.28 


2 


11 


36 I 
40.00 


47 


17*46 


30.72 


Total 


63 


90 I 

100.00 I 


153 


100.00 


100.00 


Pearson chi2(1) 


8.84 64 


Pr 


0.003 




















4 概要统计及交互衷 I H 5 


不同于 tabulate 命令， tabi 并不需要引用内存中的任何数据。通过 replace 选 

项，我们要求 tabi 用新的交互表取代内存中的任何数据。在统计量的选项 （ chi 2 、 

nofreq 等）上， tabi 与 tabulate 完全一样。 


exact 




多表和多维文互表 


对于调查和其他大型数据集，我们有时需要许多不同变量的频数分布。这时，我们 

可以分别做每个变量的频数分布，比如，先键入 tabulate meetinflrs ， 然后键人 
tabulate gendex •最后键入 tabulate kidB 。 除了这种方法之外，我们可以用另一 

个简单的专门命令 tabi : 

tabi meetings gender kids 

或者，要创建从 gender 直到 school 其间每个变量的频数表(一次最多可包括 3 0 个变 
量），键 人： 

.tabi gender-school 

_ 

同样， tab 2 可以同时创建多个二维表。例如，下面的命令创建所列出变量的任何两 
个变量的二维交 互表： 

.tab2 ineetiiigs gender kids 

tabi 、 tab 2 与 tabulate 有相同的选项 0 

要创建多维列联表 ，一 种方法是利用普通的 tabulate 加上一个前缀 by 。 下面是 

一 ^ meetings ^ kids con tain (受访者认为他或她的财产或水受到污染）的三维 

交互表，同时进行 contam 每一取值水平内 /neetings 和 kids 的独立性卡方 检验： 

_ by cont^m r sort : tabulate meetings kids f nofreq col chi2 


-> contam 


no 


Attended 

meetings | Have children <19 in 

on 

pollution 


town ? 


yes 


Total 


no 


no 

yes 


91,30 

8*70 


68.75 
31.25 


78,18 

21.82 


Total 


100.00 


100.00 


100 I 00 


Pearson chi2(1) 


7■9814 


0.005 


Pr 


-> contam 


yes 


Attended I 


meetings | Have children <19 in 

on I 

pollution 


town? 


yes 


Total 


no 


no 

yes 


58.82 

41.18 


38,46 

61.54 I 


46.51 

53,49 


Total 


100.00 


100.00 


100 t 00 


Pearson chi2{1) 


1 , 7131 


0,191 


Pr 




在受污染和未受污染的两个群体中，为父母者都更有可能参加会议。不过，只有在未受 

污染的较大群体中，“父母身份效应”才具有统计显著性。由于多维列联表把数据分成几 
个小的子样本，子样本的规模对显著性检验结果具有很大的影响。 
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应用 STATA 做统汁分析 


这种方法可以扩展到更加复杂的交互表。例如，要创建一个 gender 
meetings 与 kids 之间的四维交互表，同时对每个 /neetings 和 kids 的分表进行卡 
方检验，键人 命令： 


contam 


y gsnder contain, 


ort 


tabulate meetings kids f column chi 2 


如果我们不需要百分比或者统计检验，还有一种更好的创建多维列联表的方法，就 
是利用 Stata 的一般表格创建命令 table 。 这个多功能命令有很多的选项，这里只示 
范其中的几个。要创建 meetings 的一个简单的频数分布表， 键入： 


table meetings f contents ( freq ) 


Attended 

meetings 


on 


pollution 


Freq. 


no 

yes 


106 


47 


要创建一个二维频数表或交互表，键人 


table meetings kids , contents ( freq ) 


Have 

children 
<19 

town? 


Attended 

meetings 


on 


pollution 


no 


yes 


no 

yes 


52 


54 


36 


如果我们列人第二个定类变量，它就会创建一^个三维列联表的“大列” （ supercolumns ) 。 


table meetings kids con tarn 


( freq ) 


contents 


Believe own 
property/water 
contaminated and Have 

children <19 in town? 

yes 


Attended 

meetings 


on 


no 


pollution 


no 


yes 


yes 


42 


44 


10 


10 


no 


20 


16 


yes 


更加复杂的列联表则需要 by () 选项，它允许有多达四维的“大行” （ supper row ) 

变量。因此， table 可以创建多达七维的列联表 :一行 、一列 、一 大列以及多达四个大行。 
下面是一个四维的 例子： 
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4 概要统计及交互表 


kids contan # contents(freq) by (gender) 


table meetings 


Responden 
t 1 s 

gender 

and 

Attended 
meetings 


Believe own 

property/water 
contaminated and Have 
children <19 in town? 

yes 


no 


on 






pollution 


yes 


no 


yes 


no 


male 


3 


18 


18 


no 


3 


6 


2 


yes 


female 


26 


24 


no 


4 


10 


13 


2 


yes 


table 的 contents() 选项具体规定表格单元要包含什么统计量 

contents(freq) 

contents (mean var 
contents( sd var 
content 

contents (rawsum varname) 
contents(count var 
contents 
contents(max var 


频数 


的平均数 
的标准差 
的总和 
忽略任意规定权数的总和 
非缺失观测值的计数 


varname 


varname 




varname 






等同于 count 


( 




的最大值 
的最小值 
的中位数 
的四分位距 
的第1个百分位数 
的第2个百分位数 


varname 




contents (min var 
contents (median var 

contents(iqr v 
contents(pi v 
contents(p2 v 


varname 




varname 


varname 




varname 




varname 




下一节将具体示范另外几个这种选项。 


共子早均教、中位教以及其他权要蜣计指椋的列表 


tabulate 能够很容易地创建分类变量每一类别的平均数和标准差的列表。比如， 
要创建 meetings 每一类别内的 lived 平均值的一维表，键入： 


tabulate jneeti/igrs , suznm (lived) 


Attended | 
meetings on | 

pollution I 


Summary of Years lived in town 

Mean 


Std * Dev 


Freq 


21.509434 

14 . 212766 


17*743809 
13 . 911109 


106 


no I 
yes I 


47 


16.954663 


153 


Total 


19.267974 


从结果看，参加会议的人看来大都是新迁入者，平均在本地住了 14 .2 年，而那些不参加 
会议的人则在本地平均住了 21.5 年。 

我们也可以用 tabulate 创建一个关于平均值的二维表， 键入： 










U 8 I 应用 STATA 做统汁分析 


tabulate meetings kids, sum (lived) mean 


Means of Years lived in town 


Attended 

meetings 

on I 

pollution I 


Have children <19 

in town? 


yes 


Total 


no 


I 28 * 307692 14.962963 I 21 . 509434 

yes I 23 .363636 11.416667 | 14.212766 


no 


Total I 27.444444 13.544444 | 19.267974 


在参加会议的人当中，无论是做父母的人还是没做父母的人，在本地住的时间都相对比 

较短。因此，前面表中提到的新老住户的划分真实地反映了这样一个事实 :有小 孩的父 
母更可能参加会议。 

上面用到的 means 选项要求表中只包括平均数。否则，我们将得到一个很庞大的 

_ 

表格，它包括平均数、标准差以及每个单元的频数。在第5章，我们将描述如何对分表的 
平均数做假设统计检验。 

虽然 table 不能进行统计检验，但是它能很好地创建多达七维的包含平均数、标准 
差、总和、中位数或者其他统计量（请参见上一节所列的选项）的表格。这里有一个一维 

表格，它显示 meetings 每个类别下的 lived 平均值。 


table meetings f contents(mean l±ved) 


Attended 

meetings | 


on 


pollution I mean(lived) 


no 

yes I 


21.5094 
14 .2123 


关于平均值的二维表格其实就是一种简单的扩展 


table meetings kids , contents(mean lived) 


Attended | 

meetings I Have children <19 

in town ? 


on 


pollution I 


no 


yes 


I 28.3077 
yes t 23.3636 11.4167 


14.963 


no 


表中的单元格也可以包含一个以上的统计量。假设我们想做一个二维表格，让它同时包 
含变量 lived 的平均数和中 位数： 


table meetings kids f contents(mean lived median lived) 


Attended | 

meetings I Have children <19 

in town? 


on 


po1lution I 


no 


yes 


28 I 3077 

27,5 


14 . 963 
12.5 


no 


23.3636 11,4167 


yes 


21 


6 















none 

one 

two 


5-9 
10 + 


Total 


8385 


10489 [ 


18874 


Sorted by 


age l^fepart gender 


变量 count 表示了每一种特征组合的案例数，因此这个小数据集实际上包含来自 
18 000万以上受访者的信息。例如，有405个受访者是男性，年龄为16〜24,到目前为 
止还没有异性伴侣。 


list in 1/ 


gender lifepart 


count 


age 


1 . I 16-24 

I 16-24 
I 16-24 
I 16-24 
I 16 - 24 


male 

female 

male 

female 

male 


405 


none 


465 


none 


3 


323 


one 


606 


one 

two 


5 


194 


我们可以利用 count 作为频数权数来创建一个 lifepart 与 gender 的交互表 


tabulate lifepart gender [fw 


count] 


heterosex I 
partners | 
lifetime 


Gende r 


male 


female 


Total 


Age 

Gender 

# heterosex partners 1ifetime 
Number of individuals 


age 

gender 

partners 


age 

gender 

lifepart 

count 




storage display 
variable name type format 


value 

label 


variable label 


tabulate .table 以及其他相关命令都可以和表示重复观测值数 
目的频数权数 （frequency weight ) —起使用。例如，文件 sextain . dta 包含了英国 
性行为调查的一些结果 （Johnson et_al ,1992 ) D 很显然，它有48个观 测值： 


summarize 


Contains data from C : \data\sextab2.dta 

obs 
var s 
size 


48 


British sex survey (Johnson 92) 

11 Jul 2005 18:05 


4 


432 (99.9% of memory free) 
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4 概要统计及交互表 


上表内的中位数验证了我们前面根据平均数获得的结 论:参 加会议的人，无论是具有父 
母身份的人还是不具有父母身份的人，都比那些不参加会议的人在本镇居住的时间短。 
每个单元格内的中位数都小于平均数，这反映出变量1 i ved 是正偏态 （ 平均数被几个居 

住时间很长的受访者拉大了）。 

table 还能在单元格内显示两个或者更多变量的平均数、中位数、总和或其他概要 


统计。 


使用频教权教 


0 0 4 0 4 6 
3 8 6 5 9 5 
18 6 4 9 7 
15 2 3 2 2 


6 6 7 8 4 8 
8 4 7 0 6 0 
5 17 9 3 7 


4 4 7 2 0 8 


4 3 8 4 3 4 

5 7 8 5 6 0 


ggg g 
o o o o 


8 8 
% % 


eee 
t t t 

y y y 
b b b , 













6.49 

20.68 

10.58 

18.39 

19*44 

24 * 42 


none 


one 

two 


10 + 


I Brown University 

U. Scranton 
U - North Carolina/Ashevi1le 

Claremont College 
DePaul University 


2 


3 


4 


5 


Thomas Aquinas College 

Davidson College 
U■ Michigan/Dearborn 

Mass* College of Art 

Oberlin College 


7 


9 


10 


school 

enroll 
pctmale 
msat 
vsa t 


s tr28 


byte 


in t 


in t 


Total 


100.00 


100*00 


100.00 


其他类型的权数，比如，概率权数或者分析权数不能用于 tabulate 命令，因为这些权数 
的意义对于这个命令的主要选项来说是不清楚的。 

频数权数的另一种应用可以通过 summarize 来示范。文件 collegel .dta 是从 
《巴伦袖珍人学指南》 （ Barron’ 

取的一个样本，它包含了 11所美国大学的信息 


Compact Guide to Colleges, 1992) 当中随机抽 


s 


Contains data from C:\data\collegel.dta 

cbs : 

vars : 
size : 


11 


Colleges sample 1 (Barron 
11 Jul 2005 18:05 


92 ) 


s 


5 


4 2 9 (99, 9% of memory free} 


storage display 
type format 


value 

label 


variable 


name 


variable label 


】 20 i 应用 STATA 做统计分析 


通常的 tabulate 选项也能处理频数权数。这里做一个同样的交互表，但它显示列百分 
比而不是 频数： 


tabulate lifep^rt gender [fweight = count], column no 


# 


heterosex 

partners 

lifetime 


Gender 


male 


female 


Total 


11 


American University 


5228 


587 I 


+ 


■ * I 


我们可以很容易地取得这 11 所学校的 msat 的平均数，键人 


Sorted by: 

变量中包括 msat ，它是每一所学校的平均的数学学习能力测验 （ math scholastic 

Aptitude Test ， 缩写为“数学 SAT ”） 分数。 

list school enroll msat 


s chool 


enroll 


msat 


College or university 
Full-time students 1991 
Percent male 1991 
Average math SAT 
Average verbal SAT 


ggg 

s o o o 
8 * 

2 8 8 

% % % % % 


g 

o 


8 8 


9 5 18 6 0 
9 112 8 6 

_* '* _ 

14 8 5 4 
3 1 1 X 1 


5 


9 


3 4 9 0 5 
5 9 10 7 

■ 善 ■ ■ 

9 6 8 3 

3X11 


5 


5 


6 


0 4 0 0 7 

85464 _ 7 4 8 8 4 
65565 * 56446 


0 0 5 2 0 


0 15 9 7 
5 2 3 4 9 
5 8 0 8 1 
5 3 2 6 


IX fO i ^ 1 t—w 


0 4 4 6 6 
2 5 5 9 7 
13 


2 
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4 概要统计及交互表 


msat 


sumznarx 


Max 


Std * Dev 


Mean 


Gbs 


Variable 


* 


680 


482 


580 - 4545 67.63189 

这个表给每个学校的平均数学 SAT 分同样的权数。然而，迪保罗大学 （DePaul 

University ) 的学生数是托玛斯 • 阿奎那斯学院 （Thomas Aquinas College ) 的：30 

倍。为了把在校学生数考虑在内，我们用变量 enroZJ (入学)进行 加权： 

ms&t [fweight = enroll] 


msat 


11 


summarize 


Max 


Std. Dev 


Min 


Obs 


Mean 


Variable | 


680 


482 


583.064 63 _10665 


32691 


msat I 


如果键入 


msat [freq = enroll] 


summarize 


也可以获得同样的结果。 

与未加权获得的平均数不同，用在校学生数进行加权后获得的平均数等于这些大学 

32 691名学生（假定他们都参加了数学 SAT ) 的平均数。然而，需要注意的是,对标准 

差、最小值或最大值却不能这样说。除了平均数，大部分个体水平的统计量并不能简单 
地通过对已经汇总的数据进行加权来计算。因此，我们在使用权数的时候要谨慎。虽然 
它们可能在一个特定的分析中有意义，但是当需要做许多不同种类分析的时候，权数对 
于作为整体的数据来说就不一定有意义。 




差分析和其他比较方法 


方差分析 （analysis of variance , ANOVA ) 包含关于平均数差异假设检验的一 

整套方法。它应用范围广泛，既有比较 x 各个类别的 y 平均数这样的简单分析，也有涉 

及多个分类型和测量型的 x 变量这样更为复杂的情形。针对单个平均数（单样本）或者 
配对平均数(两个样本）的 t 检验是方差分析的基本形式。 

基于秩的‘非参数” （ nonparametric ) 检验，包括符号 （ sign ) 检验、 Mann 
Whitney 秩和检验以及 Kruskal-Wallis 秩和检验，采取了另一种途径来比较多个分 

布。这些检验对变量的测度、分布形态和散布情况做了较弱的假定。因而，比起方差分 
析及其他“参数” （ parametric ) 检验来说，它们在更宽松的条件下仍然有效。谨慎的分 




检验和非参数检验结果不一致的时候，就需要进一步探究。 

anova 是本书将要介绍的第一种 stata 模型拟合命令。和其他命令一样，它具有 
相当大的灵活性，包含了很多种模型。 


可以拟合单因素 （ one-way) 和多因素 

(N-way ) 的方 差分析 ，也可以拟合平衡设计或非平衡设计的以及具有缺失单元值设计的 

协方差分析 （ analysis of covariance , ANCOVA ) 0 它还可以拟合因子型 

(factorial )， 嵌套型 （ nested ), 混合型 （ mixed ) 的设计或者重复测量设计 
( repeated - 


anova 


designs) 0 在执行 anova 命令后，后续的 predict 命令可 

以计算预测值、不同类型的残差、各种标准误以及诊断性 （ diagnostic) 统计量。另一 ' 

个后续命令 test 用来获得用户指定的虚无假设检验结果。 predict 和 test 命令与 
其他 Stata 模型拟合命令的工作方式很相似，如 


measures 


等(第6章) 


regress 


o 


通过下面的菜单选项，可以完成本章描述的大部分操作 


Statistics-Sunimaries , tables， & tests-Classical tests of hypotheses 

经典假设检验 

Statistics-Summaries, tables, & tests-Nonparametric tests of hypotheses 


非参数检验 


Statistics-Summaries, ANOVA/MANOVA 

Statistics-General Post -estimation-Obtain Predictions, residuals，etc 


方差分析与多元方差分析 


取得预测值、残差等 

叠并双因素图形 


Graphics -Overlaid two way graphs 


123 


5 方差分析和其他比较方法 


命令示絶 


1 x2 


anova y 


执行双因素方差分析，检验 y 平均数在 xi 和 W 两个分类变量的交互类别之间的 


差别 


2 x2 xl*x2 

执行双因素因子方差分析，包括两个分类变量的主效应以及 XI 与 W 之间的交互效 

应 （xl * x 2 ) 0 


anova 


y 


1 x2 x3 xl*x2 xl*x3 x2*x3 xl^x2 J 

执行三因素因子方差分析，三阶交互效应 （Xl * x 2 * x 3 ) 、二阶交互效应和主效应 

都包括在内。 


anova 


y 


/ tBacherlcurricul 


reading curricul 




[Sin 


anova 


拟合嵌套模型，用以检验三种类型课程对学生阅读能力 （ reading ) 的影响。教师变 


量 teac*er 嵌套在课程变量 curricuJum 里面 （ teacher \curriculum) ，因为每一 


门课程都指派了几位不同的老师任教。《基础参考手册 》 （Base Reference Manual ) 
提供了其他嵌套方差分析的例子，包括分块设计（ split-plot design ) 0 


headache subject medication f repeated (medication) 


anova 


拟合重复测量的方差分析模型，检验三类头疼药 （ medication ) 对受试者不同程度 
头疼 （ headache ) 的疗效。样本由20个经常头疼的受试者构成。在这个研究中，每一 
个受试者在不同时间分别服用这三种头疼药。 


2*x3 r continuous (x3 x4) regress 


1 x2 x3 


anova 


y 


执行四个自变量的协方差分析，其中两个自变量 （ xl 和 W ) 是分类变量，另外两个 
自变量 （ x 3 和 x 4 ) 是测量变量。交互效应 （ x 2 * x 3 ) 也包括在里面，结果以回归表形式 

输岀、而不是默认的方差分析表 


kwallis y f by(x) 

执行 Kruskal - Wallis 方法来检验 y 是否在 x 的 7 c 个类别 ( ic >2) 上有同样的秩 


分布。 


oneway y 


执行单因素方差分析，检验在 x 不同类别上 y 的平均数是否存在差异。也可以用命 

来完成同样的分析，但输出的表格不同。 


令 


anova y 


oneway y x f tabulate scheffe 


执行单因素方差分析，输出中包括样本平均数表和 Scheffe 多重比较检验 

(Scheffe multiple - 


test ) 的结果 0 


comparison 


ranksum y f by (x) 


124 


应用 STATA 做统计 分析 


执行 Wilcoxon 秩和检验 （Wilcoxon rank-sum test ) (也称 Mann-Whitney 的 


U 检验），虚无假设为 y 在二分变量 x 的每个类别上具有同样的秩分布。如果我们假定 
两个秩分布具有相同的形态，这也可看作是检验 y 的两个中位数是否相等。 


serrbar ymean se 


cale (2) 

I 

根据平均数的数据构建 一 个标准误条形图 （ standard - error-bar plot )。 变量 
ymean 代表 y 的分组平均数, se 代表标准误， x 则是分类变量 x 的取值。 scale ( 2 ) 要 
求条形从每个平均数开始扩展至± 2倍标准误（默认设置为±1倍标准误）。 

signrank yl = y2 


执行 Wilcoxon 配对符号秩检验 （Wilcoxon matched 


-pairs sign-rank 


test ) 以验证 yl 和 y 2 的秩分布相同。也能用于检验 yl 的中位数是否等于某一常 
数，比如， 23 . 4 ，那么键人命令 signrank yl 


23 .4 即可。 


* sxgntest yl = y2 

检验 yl 和以的中位数是否相等(假定为配对数据，也就是说，两个变量都是测量 

同一观察样本）。键人 signtest yl =5 将执行符号检验，此处的虚无假设为乂 2 的中 
位数等于5 

ttest 

执行单样本 t 检验，虚无假设为 y 的总体平均数等于5。 

ttest yl = y2 

执行单样本（配对差异） t 检验，虚无假设为 yl 和以的总体平均数相等 
令的默认形式假定数据是配对的。对于非配对数据 ( yl 和 y 2 分别从两个独立样本中 

测量），须加上选项 unpaired 。 

.ttest y, by(x) unequal 

执行两样本 t 检验，虚无假设 为:对 X 的两类来说, y 的总体平均数都相等。这里不 
用假定各总体具有同样的方差。（如果没有 unequal 选项，则 ttest 假定同方差。） 


o 


y r= 


这条命 


羊样 本格验 


单样本 t 检验有表面上看起来不同的两种 应用： 

① 检验样本平均数歹是否显著地不同于某一假设值 

② 检验同一套观察值中的两个变量 yl 和 y 2 的平均数是否显著地不同。这等价于 

检验 yl 减去 y 2 之后得到差值 （difference score ) 的平均数是否等 于零。 




虽然第二项应用涉及两个而不是一个变量的信息，但这两项应用实质上使用同一个 


公式 


文件 writing.dta 中的数据是用来评估一门基于文字处理的大学写作课 （ Nash 
and Schwartz , 1987 ) 0 在学生修习这门课的前后都收集了一些测量值，比如，定时写 
作中完成的句子数。研究者想知道选课以后的测量值是否有所提高。 


Student ID 

# of sentences (pre-test) 

# of paragraphs (pre-test) 
Coherence scale 0-2 {pre-test) 
Evidence scale 0-6 (pre-test) 

# of sentences {post^test) 

# of paragraphs (post-test) 
Coherence scale 0-2 (post-test) 
Evidence scale 0 - 6 (post-test) 


slbl 


id 


pr eS 
preP 
preC 
preE 

posts 

post P 
pos tc 
pos tE 


[95% Conf. Interval] 


Std_ Dev 


Std, Err 


Obs 


Mean 


Variable 


攀 


12,73663 


8 * 846708 


4 . 606037 


9402034 


10.79167 


2 4 


preS t 


■ 


Degrees of freedom : 23 


10 


Ho : mean(preS) 




Ha: mean > 10 

0 • 8420 
0.2042 


10 


Ha: mean 


Ha : mean < 10 

0.8420 
0.7958 


0.8420 
0.4084 


t 


t 


t 


P > t 


P > I t 


P < t 


所标注的 p > t 意味着“获得较大 t 值的可能性”，也就是指单侧检验概率。双侧检 

验概率则表示为 P > It 1=0. 4 08 4，它代表的是获得较大 t 的绝对值的概率。因为这一 

概率比较高，我们没有理由拒绝虚无假设 H 0 

数的 95* 置信区间。我们也可以获得其他水平的置信区间，比如说叩％，只要在命令后 

加上选项 level (90) 即可。 

对于非参数型检验，比如说符号检验，采用二项分布来检验关于某一中位数的假设。 
例如，我们可以检验前测值(坪的）的中位数是否等于10。 igntest 的结果同样告诉 

我们，没有理由拒绝虚无假设。 


=10。请注意， ttest 自动提供了平均 




igntest preS - 10 


Sorted by 


假定我们知道学生在前些年平均能够完成 10 个句子。在检查数据 writing.dta 

描述的学生是否通过这门课有进步之前，我们希望知道他们在课程开始时是否和早期学 
生在本质上相似。换句话说，他们的前测 （ pre 幻平均数是否显著地不同于早期学生的 

平均数 (10)。 要进行单样本的 t 检验，虚无假设为 


= 10,键入命令 




10 


ttest preS 


One-sample t test 


value 

label 


storage display 

format 


variable label 


variable name 


type 
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5 方差分析和其他比较方法 


_ describe 

Contains data from C:\dataAwriting-dta 

obs : 
vars : 

size: 


Nash and Schwartz (1987) 

12 Jul 2,005 10:16 


2 4 


312 (99 * 9% of memory free) 



ooooooooo 


888888888 

% % % % % % % % % 


e e e o e e e 
t t t t t t t 

yyyyyyyyy 

bbbbbbbbb 


e e 
t t 
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应用 STATA 做统汁分析 


Sign test 


sign 


observed 


expected 


positive 

negative 

zero 


12 


11 


10 


11 


2 


2 


all 


2 4 


2 4 


One-sided tests : 

Ho : median of preS 
Ha: median of preS 

Pr(#positive 

Binomial (n 


10 


0 vs 




10 > 0 




12 ) 


>二 


22 ， x > = 12, 


0.5) 


0.4159 




P 






Ho: median of preS 
Ha: median of preS - 10 < 0 

Pr (#negative 

Binomial(n 


10 


0 




vs 




10 ) 


> = 


22, x >= 10 


0.5) 


0.7383 


P 




Two-sided test: 

Ho: median of preS 
Ha: median of preS 

Pr (#positive >= 12 

min (1, 2*Binomial(n - 22, x >= 12 


10 


0 vs - 






10 != 0 




#negative 


12 ) 


or 


> 




0*5)) 


0.8318 


P 


与 ttest 相似， signtest 也包含右侧概率，左侧概率和双侧概率。但和 
使用对称的 t 分布不同的是， sightest 使用二项分布，其左侧概率和右侧概率并不相 

等。在本例中，仅有双侧概率有意义，因为我们检验的是数据中的学生 
是否不同于先前的学生。 

接下来，我们通过检验“课程前后完成句子数的平均数（也即是说 pre < s 和 posts ) 

相问这 一 虚无假设来检査学生在课程中是否有进步。命令 ttest 可以实现这 一 目的， 
结果发现存在明显的进步。 ’ 

ttest posts = preS 


ttest 


Paired t test 


Variable | 


Obs 


Mean 


Std, Err 


Std, Dev 


[ 95 % Conf _ Interval] 


+ 




posts I 
preS I 

dif f I 


24 


26.375 

10.79167 


1 - 693779 
9402034 


8.297787 
4.606037 


22.87115 

8-846708 


29.87885 
12.73663 


24 


■ 




24 


15.58333 


1 -383019 


6.775382 


12 * 72234 


18.44433 


Ho 


mean{posts 


preS) = mean(diff) 




Ha: mean (diff) < 0 

11.2676 
:U 0000 


Ha : mean(diff) != 0 

11.2676 
0.0000 


Ha 


mean(diff) > 0 

11,2676 

0.0000 


t 


t ■= 


t 




P < t 


P > lt| 




P > t 


由于我们期望不仅仅是前测和后测之间有所“不同”，而是要有所“进步”，因此单侧 
检验是恰当的。结果显示，单侧概率四舍五人并保留 4 位小数后等于 0( “0.000 0”实际 

基于这一抽样， 


上意味着 PcO.OOQ 0 5 )。 学生的平均句子完成数确实有了显著提高。 

我们有 95 %的把握说句子完成数增加了 12.7 〜 18.4 

t 检验假定变量服从正态分布。这一假定通常不是十分关键，因为这些检验都比较 

但是，当非正态性涉及严重的特异值，或者说出现在小样本中，我们将 
检验中位数而不是平均数，并使用不做正态分布假定的非参数检验，这样会更可靠 。例 
如， Wilcoxon 符号秩检验仅假定分布是对称和连续的。对这样的数据采用符号秩检 


o 


稳健 （ robust ) 


O 








id 


byte 

byte 

byte 

byte 

byte 

byte 

float 

byte 


year 

age 

gender 

major 

relig 

drink 

gpa 

grades 


byte 

byte 

byte 

byte 

byte 

byte 

byte 

byte 

byte 

byte 


belong 

live 

miles 

study 

athlete 

employed 

allnight 

ditch 

hsdrink 

aggress 


Student ID 
Year in college 
Age at last birthday 
Gender (male) 

Student major 
Religious preference 
33-point drinking scale 
Grade Point Average 
Guessed grades this semester 


year 


s 


v4 


grades 


Belong to fraternity/sorority 
Where do you live? 

How many miles from campus? 
Avg * hours / week studying 
Are you 

Are you employed 
How often study all night 
How many class/month ditched? 

High school drinking scale 
Aggressive behavior scale 


belong 


vlO 


varsity athlete? 


a 


yes 

yes 

allnight 

times 


9 


7 


id 


Sorted by 


大约有19%的学生参加了大学生联谊会（男生联谊会或女生联谊会 ， fraternity 


ty ) 


or sorori 


127 


方差分析和艽他比较方法 


验，可以获得实质上和 ttest 相同的结论，即学生的句子完成数显著提髙了。由于两种 
检^在结论上一致，我们可以更加有把握地作出断言 


o 


signrank posts = preS 


signed-rank 


test 


Wilcoxon 


expected 


ranks 


obs 


sign 


sum 


150 


300 


24 


positive I 
negative I 

zero 


150 


0 


0 


0 


0 


300 


300 


24 


all 


1225 - 00 
-1*63 
0.00 


unadj usted variance 
adjustment for ties 
adjustment 


for zeros 


1223,38 


adj usted variance 


Ho : posts = preS 


4,289 

0.0000 


z 


Prob > Iz 


两样本检發 


本章其余部分的例子来自于 Ward 和 Ault (1"0)对在校大学生的抽样调查 

( student2 .dta) 0 


describe 


Contains data from C : \data\student2,dta 
obs 
var s 
size 


Student survey (Ward & Ault 19 90) 

12 Jul 2005 10:16 


243 


65 61 (99-9% of memory free) 


value 

label 


storage display 

format 


variable label 


variable name 


type 


ggggg g gg cn g g gg gg g g gg 

ooooooooo oooooooooo 


8888888899 
% % % % % % % % % % 


888988998 
% % % % % % % 
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应用 STATA 做统计分析 


tabulate belong 

Belong to | 

fraternity/ | 

ity f 


Freq 


soror 


Percent 


Cum 


member | 
nonmember | 


47 


19.34 

80. 66 

Mp * 

100.00 

另一个变量 drink 用一个 33 级量表来测量学生喝酒频度和程度。校园传闻让人 
猜测大学生联谊会成员在饮酒行为上不同于其他学生。用箱线图比较了 的中位 

数在会员和非会员之间的差别，而条形图则比较了这一变量的平均数，两种结论都与这 
种传闻是一致的。图 5 .1 把这两种图叠并到了一个图中。 

over(belong) ylabel(0(5)35) saving(fig05_01a) 

(belong) ylabel (0 (5) 35) s^xng (fig05_01b) 

P h fig05_01b.gph f col(2) iscale(1.05) 

图 5,1 


19.34 
100.00 


196 


Total 


243 


graph box drink 
graph bar (mean) drink f 

graph 


f 


over 


fig05 01 


co 












2 貝 




CO 


Su> 


Is 


o 


iO 


in 


o 


fti embor n onhriem ber 




r notirhember 

_ A ■ 


命令在前面用于单样本和配对差异检验，在这里同样可以用于两样本检验。 

y ( categorical ) 。例如， 


ttest 

在应用时，其一般命令语法是 ttest 


ineasureineiit ， 


ttest drink , by(belong) 


Two-sample t test with equal 


varlances 


Group 
- +- 


Obs 


Mean 


Std. Err 


Std. Dev 


[95% Conf * Interval] 


* 


member 

nonmembe | 

combined 


4 7 


24,7234 

17.7602 


7124518 

4575013 


4 • 884323 
6 , 405018 


23.28931 

16,85792 


26,1575 
18 * 66249 


4 


196 


243 


19*107 


431224 


6*722117 


18.25756 


19.95643 


■ 


—_ + 




dif f I 


6 . 9632 


9978608 


4.997558 


8.928842 


_ 


Degrees of freedom: 241 


Ho 


mean(member) 


mean (nonmembe) 


diff 


0 






Ha: diff < 0 

6.9781 
1 - 0000 


Ha ： diff != 0 

6 * 9781 
0.0000 


Ha; diff > 0 

6.9781 
0.0000 


t 




t 


t 


p < t 


p > 111 




p > t 
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方差分析和其他比较方法 


5 


输出结果表明， t 检验有赖于同方差假定。不过，大学生联谊会成员样本的标准差 
看起来要低一点。这意味着，比起非会员，他们所报告的饮酒行为更为相似。如果不假 
定同方差来执行类似的检验，在命令后加上选项 unequal 即可： 

■ ttest drink f by ( belong ) unequal 


Two-sample t test with unequal 


variances 


[95% Conf _ Interval] 


Std. Dev 


Std. Err 


Mean 


Obs 


Group ! 


+ 






26.1575 

18.66249 


23.28931 
16.85792 


4.884323 
6.405018 


7124518 

4575013 


24* 7234 
17.7602 


4 7 


member 

nonmembe 


* 


196 


_ 


19,95643 


18.25756 


6.722117 


431224 


19.107 


243 


combined 


8•645773 


5.280627 


8466965 


6. 9632 


dif f 


奢 


88.22 


degrees of freedom 


Satterthwaite 1 s 


diff 


mean (nonmembe) 


Ho : mean(member) 




diff > 0 

8.2240 
0.0000 


Ha : diff != 0 

8,2240 
0.0000 


Ha 


Ha: diff < 0 

8,2240 

1 I 0000 


t 


t 




t 




p > t 


p > 11 




p < t 


对不等方差的校正并没有改变会员和非会员显著不同这一基本结论。我们可以进 
步采用 Mann-Whitney 的 L 7 统计量非参数检验来检査这一结论，这一检验也称作 

Wilcoxon 秩和检验。秩和检验假定秩分布具有相似的形状，此处的秩和检验结果表明 
我们可以拒绝不同总体中位数相等的假设。 




ranksum drink f by ( belong ) 


Two-sample Wilcoxon rank-sum (Mann-Whitney) test 


expected 


rank 


obs 


belong 


sum 


5734 

23912 


8535 

21111 


47 


member | 
nonmember | 


196 


29646 


29646 


243 


combined I 


187310.67 
-472.30 


unadjusted variance 
adjustment for ties 


186838.36 


adjusted 


variance 


drink(belong==nomnember) 


Ho : drink (belong==member) 

6.480 
CK 0000 


z 


Prob > Iz 


羊因棄方差分析 


方差分析 ( ANOVA ) 提供比 t 检验更一般的方法来检验平均数之间的差异。最简单 
的例子是单因素 （ one - way ) 方差分析，它检验 y 的平均数是否在 x 的多个类别上都相 

等。单因素方差分析可以用 oneway 命令来执行，其一般形式是 oneway 

4 

measurement categorica 2( 译者注：其中 measurement 代表测量型变量名，即 y ; 

tegorical 代表分类变量名，即 x )。 例如， 

k belong r tabulate 


ca 


oneway d 
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应用 STATA 做统计分析 


Belong to | 

fraternity/ | Summary of 33-point drinking scale 

Mean 


ty I 


Std* Dev 


sorori 


Freq 


member | 

nonmember | 


24.723404 

17.760204 


4 * 8843233 
6.4050179 


4 7 


196 


Total [ 


19.106996 6 - 7221166 


243 


Analysis of Variance 


Source 


SS 


df 


MS 


F 


Prob > F 


Between groups 
Within groups 


1838 + 08426 

9097.13385 


1 1838,08426 

241 37,7474433 


48,69 


0 * 0000 


Total 


10935*2181 


242 45.1868517 


Bartlett 1 s test for equal 


chi2 (1) 


variances 


4 * 8 378 Prob>chi2 


0.028 


选项 tabulate 除了产生方差分析表本身外，还产生一个平均数和标准差表。针对* 

二分变量 x 的单因素方差分析等价于两样本 t 检验，并且其 F 统计值等于相应的 t 值的 

平方。 oneway 提供了更多的选项，运行也更快，但是缺乏 t test 中的 unequal 选项 
因此不能取消同方差假定。 ^ 

oneway 运用 Bartlett 的卡方值来正规检验等方差假设。较低的 

率意味着方差分析中的同方差假定不大可能成立，在这种情况下，我们不应相信方差分 

析的 F 值检验结果。在上面的 oneway drink Jbelougr 示例中， Bartlett 的 
0 .028 ，于是令人质疑这一方差分析的有效性。 

方差分析的真正价值并不在于两样本比较，而是对于三个或者更多平均数的复杂比 
较。例如，我们可以检验大学生饮酒行为平均数随着在校年数不同而变化的 情况： 


概 


Bartlett 


P = 


oneway drink year, tabulate schef£e 

Year in | 
college | 


Summary of 33-point drinking scale 

Std _ Dev - 


Mean 


Freq 


Freshman | 
Sophomore 

Junior | 
Senior | 


18.975 
21,169231 
19.453333 

16.650794 


6.9226033 
6 _ 5444853 
6.2866081 
6 , 6409257 


40 


65 


75 


63 


Total 


19,106996 


6.7221166 


243 


Analysis of Variance 


Source 


SS 


df 


MS 


F 


Prob > F 


Between 

Within 


666.200518 
10269.0176 


groups 

groups 


3 222.066839 

239 42.9666008 


5.17 


0*0018 


Total 


10935.2181 


242 45.1868517 


Bartlett 1 s test for 


equal 


chi2 (3) 


variances 


0.5103 Prob>chi2 


0 • 917 






Comparison of 33-point drinking scale by 

(Scheffe) 


Year in 


college 


Row Mean- 
Col Mean 


Freshman 


Sophomor 


Junior 


Sophomor 


2.19423 
0,429 


Junior 


478333 

0.987 


-1 .7159 
0.498 


暑 


Sen i or 


-2.32421 

0.382 


-4.51844 

0 _ 002 


-2.80254 

0 _ 103 
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我们可以拒绝平均数相等的虚无假设 （P =0.001 8 )，但不能拒绝同方差假定 （P = 

917 ) 。后者对于方差分析的有效性来说是个“好消息”。 

下面的图 5.2 中的箱线图支持了这一结论，在每一个类别中都显示出相似的变化。 
这个图把箱线图和点图叠并在一起，显示出中位数和平均数的差异基本上遵从同样的 


0 


模式 


graph hbox drink, over(year) ylabel(0(5)35) saving( flg05_02a) 
graph dot (mean) drink, over(year) ylabel(0(5)35 f grid) 

ol (S)) saving(fig05_02b) 

graph combine f±g05_02a.gph f±g05_02b.gph, row(2) 

图 5.2 


marker(1 f 


y 




cale(1.05) 


Freshman 

• «• • «• • «• t « 1 • 

Sophonidre 

Juhiof 

I • • ^ I •_ 

Senior 


Freshman 

Sophomore 

Junior 

. . . • 

Serttor 


选项 scheffe( Schef fe 多重比较检验）生成了一个表来显示在每一对平均数之 
间的差异。 一 年级学生平均数等于18.975,二年级学生平均数等于 21.169 23,因此，二 
年级和一年级学生之间的差值为 21.169 23 -18.975 =2.194 23 ，统计性上并非显著地 
不等于 0 (P = 0.429)。在表中6组对比中，只有四年级学生 （ Senior ) 和二年级学生 
( Sophomor ) 之间的差别是显著的 （P = 0.002)，这一差别等于 16.6508 -21.169 2 = 

-4.518 44。因而，我们关于这个四个组平均数不同的总体结论主要来自于四年级学生 

% 

( 最轻度的饮酒者）和二年级学生 （ 最重度的饮酒者）之间的对比。 

oneway 提供了三种多重比较 选项： scheffe 、 bonferroni 以及 sidak (其定义 

参见《基础参考手册 》 （Sase Reference Mannual )) Q 虽然 Schef 检验有时不够 

灵敏，但在大多数情况下都有效。 

Kruskal - Wallis 检验 ( kwallis) 是对两样本秩和检验在 K 个样本下的推广，它 

提供了一种非参数检验方法来代替单因素方差分析。它可以检验不同总体的中位数相 
等的虚无假设。 

kwallis drink f by(year) 
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Test: Equality of populations (Kruskal-Wallis test) 


year | Obs | Rank Sum | 


I Freshman | 40 | 4914.00 

Sophomore I 65 | 9341*50 

75 I 9300.50 

63 I 6090.00 


Jun ior 
Senior 


chi-squared = 
probability = 


14.4 53 with 3 d•f 
0,0023 


chi - squared with ties 
probability = 


14.490 with 3 d .f 


0 . 0023 


在这里 ,lwallis 的分析结果 （P = 0.002 3) 和我们用 oneway 发现的结果 一致 , 即 

drink 这一变量因在校年数不同而差异显著。如果我们怀疑方差分析的等方差假定或 
正态分布假定，或者我们怀疑特异值带来的问题，那么 Kruskal-Wallis 检验通常要比 
方差分析更为可靠。 fcwallis 和 ranksum 一样，对于各组内部具有相似分布形态的假 

定 较弱。 当应用于两样本分析时， ranfcsum 和 kwallis 原则上将产生相似的结果，但 
是这只有在数据中不包含同位秩 （ tie ) 时才是这样 

来处理同位秩的情况，这使得它在处理两样本问题时更为完美。 


ranksum 采取了一种精确的办法 


双因 棄和多闽素方 差今析 


单因素方差分析检查测量型变量 y 在另一个分类变量 x 的不同类别之间的平均数 

差异。多因素方差分析推广这种探索，处理有两个或者更多 x 分类变量的情况。例如， 

我们可以考虑饮酒行为不仅仅因为是否联谊会成员而变化，同时也因为性别不同而^ 
化。我们先来检查平均数的双因 素表： 


table belong gender, contents(mean 


drink) row col 


Belong to | 
fraternit t 

y/sororit | 


Gender (male) 

Male 


y 


Female 


Total 


member | 22 P 44444 26.13793 

nonmember | 16,51724 


24.7234 
17.7602 


19.5625 


Total I 17.31343 21.31193 


19. 107 


在这个样本中，男性比女性饮酒要多，会员比非会员饮酒要多。会员 一非会 员之间 
的差别在男性和女性中类似。 Stata 的多因素方差分析命令为 anova, 它可以检验平 
均数之间的显 著差异是否可 以归诸于属于联谊会 、性别 以及这两者之间的交互作用 （记 


为 belong ^ gender) 


drink 


bBlong gmndBr bel ong* g&nder 


anova 
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0.2221 

0.2123 


243 


R-squared 

Adj R-squared = 


Number of obs 
Root MSE 






5.96592 




Prob > F 


F 


df 


MS 


Source | Partial SS 


22.75 


0 - 0000 


3 809.557456 


2428.67237 


Mode 1 


39.51 

11.43 

0,11 


0.0000 
0.0008 
0.7448 


1 1406.2366 

1 408 - 520097 

1 3.78016612 


1406.2366 
408.520097 
3,78016612 


belong 
gender 
belong* gende r 


8506.54574 239 35.5922416 


Residual 


Total I 10935.2181 242 45,1868517 


在这个“双因素因子方差分析”的例子中，输岀结果表明 belong 的主效应 （ P 二 

0.000 0) 和 grender 的主效应 （P =0.000 8 ) 都是显著的,但它们的交互效应对模型贡 
献甚少 （P =0.744 8)。这一交互效应并不显著地区别于0,因此我们可能更愿意拟合一 

个没有交互项，并且也更简单的模型 （ 结果未显示）。 


anova drink belong gender 


要在 anova 中纳入任何一项交互效应，只需指定有关变量名称，并用 * 号连接即 
可。除非各 X 的每种取值组合中的观察次数完全一样（“平衡数据”情形），否则很难在 
一个包含交互效应的模型中解释主效应的作用。当然，这并不是说在这样的模型中主效 
应不重要。正如在后面的章节所示，回归分析可以帮助理解复杂的方差分析结果。 


仿方差分析 


协方差分析 （analysis of covariance , ANC 0 VA ) 扩展了多因素方差分析，使之 

可以涵盖混合了分类变量和连续变量的情况。我们通过在 anova 命令中指明哪些变量 
是连续的来实现这一点。例如，当我们将 gpa (大学平均等级分）纳人自变量中，我们发 
现它也和饮酒行为有关。 


anova drink belong gender gpa r continuous(gpa) 


218 


0.2970 

0.2872 


Number of obs 
Root MSE 


R-squared 
Adj R-squared 


5-68939 




Source | Partial SS 


df 


MS 


F 


Prob > F 


2927.03087 


3 975.676958 


Model 


30-14 


0.0000 


belong 

gender 

gpa 


1489.31999 
405.137843 

407.0089 


1 1489.31999 

1 405.137843 

407 - 0089 


46,01 
12,52 
12 • 57 


0 - 0000 
0.0005 
0.0005 


Residual 


6926.99206 214 32.3691218 


Total I 9854.02294 217 45.4102439 


从这 一 分析我们知道，在我们控制了 jbeJong 和 gender 之后， drink 和 gpa 之间 

还存在着显著性的关系。但除了用于统计显著性的 F 检验,方差分析或协方差分析通常 
并不提供很多变量之间如何联系的描述信息。回归分析（: regression ) 凭借其清晰的 

模型和参数估计，在描述方面做得更好。因为方差分析和协方差分析可以算是回归分析 
的特例，我们可以用回归分析的形式重新表达它们。如果我们在 anova 命令中加上 
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regress 选项 ， S tat a 将自动完成这一过程。例如，我们可能希望看到回归的输出内容 
来帮助理解下列协方差分析结果。 


rink belong gender belong*gender 
regress 


continuous(gpa) 


anova 


P 


Source 


SS 


df 


MS 


Number of obs 
F{ 4, 

Prob > F 
R-squared 
Adj R-squared 

Root MSE 


218 


213) 


22.57 
0,0000 
0.2977 
0.2845 
5.7001 


Model ] 2933.45823 

Residual | 6920.5647 


4 733,364558 

213 32.4909141 








Total 丨 9854.02294 217 45.4102439 


drink 


Coef 


Std. Err 


t 


P> I t I 


[ 95% Conf_ Interval] 


27.47676 2,439962 


_cons 

belong 


11.26 0.000 


22.6672 


32,28633 


6.925384 1.286774 

(dropped) 


5.38 0,000 


4•388942 


9.461826 


2 


gender 


-2,629057 
(dropped) 

-3*054633 


8917152 


-2.95 


0.004 


™4.386774 


8713407 


鲁 




導 


2 


.8593498 


gpa 

belong *gender 


-3.55 


0.000 


4,748552 


-1.360713 




8656158 
(dropped) 

(dropped) 

(dropped) 


1 . 946211 


-0 - 44 


0-657 


-4.701916 




2.970685 


4 


2 


2 


2 2 


加入 regress 选项，我们得到回归表格形式的 anova 输出结果。顶部是标准的方 
差分析表，给出了相同的整体 F 检验和 J ? 2 。底部部分则描述了如下的回归 分析： 

我们构建了一个单独的虚拟变量 （dummy variable ) ，用| 0 ,1 1来表示每个 x 变 

量的每一个类别，但序次最高的类别被剔除，不包括在内。交互项（如果出现在变量列表 

中）则通过这些虚拟变量之间每一种可能组合的乘积来构建。将 y 对所有在命令行中指 
定的虚拟变量、交互项以及连续变量进行回归分析。 

因此，前面的示例相当于对 drink 进行四个 x 变量的回归 分析： 

1.虚拟变量，编码为1 =联谊会成员，0 =其他情况（非会员作为 jbeJong 最高序次 
的类别被删除 了）； 


2 •虚拟 变量，编码为1 =女性,0 =其他情况（男性作为 gender 最高序次的类别被 


删除 了）； 


3 .连续变量， gpa ; 

4 .交互项，编码为1 =女性联谊会会员，0 =其他情况。 

这里要把单个虚拟变量的回归系数理解为它对 y 的预测值或者条件平均数的效应。 
例如， gender 的第一个类别（女性）的系数等于 -2. 629 

样平均等级分 （ gpa ) 和相同会员身份的女性平均饮酒测量水平大约比同样情况的男性 
低 2 . 63 个百分点。并且我们知道，对那些具有相同性别和相同会员身份的学生来说, 
g _ pa 每增长一分，平均饮酒测量值下降 3 . 0 5 6 433 。请注意，我们还得到了每个系数的 

置信区间和单项 t 检验结果， anova, regress 这一命令输出结果中所包含的信息比起 
单独的方差分析表要丰富得多。 


这告诉我们，那些具有同 


057 


o 


预測值和误差条形固 


在运行 


后，后续命令 predict 可以计算出预测值、残差、标准误以及各种诊 


anova 
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断统计量。这些统计量的应用之一是用误差条形图 （ error - bar chart) 来画出模型的 
预测情况。举一个简单的例子，让我们回到 drinTc 对 year 的单因素方差分析。 


drink year 


anova 


0 - 0609 

◦ _ 0491 


R-squared 

Adj R-squared 


243 


Number of obs 
Root MSE 






6.55489 




Prob > F 


F 


df 


MS 


Source | Partial SS 


0.0018 


5.17 


3 222 * 066839 


666.200518 


Mode 1 


0 - 0018 


5 ， 17 


3 222 .066839 


666.200518 


yea r 


10269.0176 239 42 * 9666008 


Residual 


Total I 10935,2181 242 45.1868517 


为了从最近的 anova 运行结果基础上计算预测值，键入 predict ，后面接上新变 
量的名称： 


* predict drinkmean 

{option xb assumed; fitted values) 

• label variable drinkmean "Mean drinking scale’ 1 

加上 stdp 选项 predict 将计算预测平均数的标准误。 

.predict 

使用这些新的变量，我们应用 serrbar 命令来创建一个误差条形图。选项 scale(2) 
告诉 serrbar 画出一个正负2倍标准误的条形图，从 

drinkmean -2 x SEdrink 


SEdrink 


tdp 


到 


drinkmean + 2 x SEdrink 


在 serrbar 命令中，最先列出的变量应该是平均数或称 y 变量。接下来列出的是标准误 
或者标准差(取决于你想显示哪一种）；第三个列出的变量用来定义 x 轴。 serrbar 中的 

plot( )选项可以指定第二个图，并使其叠并显示在标准的误差条形图上。在图 5 . 3 中，我 
们叠并显示了一个折线图，它用实线段将 drinkmean 的各个取值连接起来。 


serrbar drinkmean SEdrink year, scale (2) 

plot(line drinkmean year, clpattern(solid)) legend(off) 

图 5.3 


Year in colleae 
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对一个双因素因子方差分析来说,误差条形图可以帮助我们将主效应和交互效应可 
视化。虽然常用的误差条形图命令 serrbar 经过努力可以达到这一目的，但使用 

graph twoway 这类命令来制图显得更加灵活，下面我们进行示范。首先，我们执行方 

差分析，获得组平均数（即预测值）和它们的标准误，接下来创建新变量，令其值等于组平 
均数加上或者减去两倍的标准误。这个例子用来检测学生的攻击性行为（ aggress ) 与 
性另 lj ( gender ) 以及在校年数 ( year ) 之间的关系。性别、在校年数以及它们之间的交互 
效应都表现出统计性显著。 


aggress gender year gender*year 

Number of obs 
Root MSE 


anova 


243 


R-squared 
Adj R-squared = 0.2280 


0*2503 






1.45652 


Source | Partial SS 


df 


MS 


F 


Prob > F 


Model I 166.482503 


7 23,7832147 


11-21 


0.0000 


gender | 94.3505972 

year | 19,040404 5 

gender*year | 24,102 9759 


1 94 * 3505972 

3 6.34680149 

3 8.03432529 


44 • 47 
2 • 99 
3.79 


0.0000 
0.0317 
0.0111 


Residual I 4 98.538073 235 2 * 12143861 


+ 


Total I 665.020576 242 2.74801891 


• predict aggmean 

{option xb assumed; fitted values) 

label variable 


aggmsan "Mean aggressive behavior scale 11 


predict SEagg, stdp 
gen agghlgh = aggmean + 
gen agglow = aggmBan 一 


SEagg 
SEagg 

graph twoway connected aggmean year 

|| reap agghigh agglow year 

by (gender, legend(off) note( M n )) 

ytitle ( n Mean aggressive behavior scale' 1 ) 


f 


5.4 


0 ) 


Lm 

O 




% 




c 


S 


Year in college 
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图 5.4 通过叠并两对图得到了误差条形图。第一对是分别女生和男生的折线图，它 

的组平均数做了连线（我们用 Predict 来计算平均数，并存为变量 
第二对是女生 和男生的戴帽芒线图 （twoway reap ) ，垂直方向的芒线将变 


把 


aggress 


aggmean) 

量 agghigh( aggress 的组平均数加上两倍标准误）和 agglow ( aggress 的组平均 

数减去两倍标准误）连接起来。选项 by( gender) 用来产生女生和男生分图。注意，在 
一 幅使用 by () 选项的图中，为了不让产生图例和注释， 1 e g end ( off ) 和 note(__ ") 

必须作为子选项出现在选项 t » y () 的括号中。 

最后输出的误差条形图（图5. 4 )显示，女性在攻击行为测量上的平均数在大学四年 

中都是在低水平波动。男性的平均数则始终比较高，并且在二年级达到顶峰，这一点和 
前面讨论的饮酒情况相似（图和图 5 . 3 ) 。因此， aggress 和 year 之间的关系在男 

性和女性之间是不同的。这张图有助于我们理解和解释显著的交互效应。 


) 中的应用方式完全一样， 


predict 在回归分析 （ regress ) 和方差分析 （ 

这是因为这两种方法采用了同样的数学分析框架。在第 6 章中列出了 Predict 命令的 

其他选项，在第7章中则给出了更多如何应用这些选项的例子。这些选项包括残差，它 
们可以用来检验误差分布的假定;还包括一套诊断性统计量 （ 比如，杠杆作用、 Cook 的 D 
统计量以及 DFSSTA ), 它们测量单个观测值对模型结果的影响。在第 I 3 章中描述的 

Durbin-Watson 检验 （dwstat ) 可以在执行 anova 之后检验一阶自相关的情况 d 条 

件效应标绘图则提供了绘图工具，用来理解更为复杂的回归、方差分析或协方差分析 


anova 


模型 


线性回归分析 


Stata 提供了范围异常宽广的回归程序。键人命令 help regress 可以看到这些 
应用的部分清单。本章介绍 regress 及其相关命令，它们完成各种简单和多元 

( multiple ) 常规最小二乘法 （ ordinary least squares ， OLS ) 回归。其后续命令 
predict 可以计算预测值、残差以及诸如杠杆作用或者 Cook 的 D 之类的诊断性统计 
量。另一后续命令 test 检验用户指定的假设。 regress 可以完成包括加权最小二乘 
法回归和两阶段最小二乘法在内的其他分析。涉及虚拟变量、交互效应、多项式和逐步 
变量筛选的回归分析在本章中也简要地有所提及，同时对残差分析给予了初步介绍。 

通过下面的菜单选择可以实现绝大部分讨论到的 操作： 


Statistics—Itineair regression and related-Lineair regression 线性回归 
Statistics-Linear regression and related-Regression diagnostics 


回归诊断 


Statist ics-P ost"©stimation-Predictions, residuals ， 


etc 


取得预测值、残差等 

叠并二维图 
纵贯及面板数据 


Graphics-Overlaid twoway graphs 
Statistics-Longitudinal /panel data 


命令示范 


regress y 


执行 y 对单个预测变量 x 的常规最小二乘法 （ ols ) 回归。 

>50 

执行 y 对 x 的回归，但只使用 ethnic 等于 并且 income 大于50的数据子集。 

predict yhat 

创建一个新变量 （ 此处任意命名 为 yhat ) , 并令其等于最近回归所得到的预测值。 

predict 

创建一个新变量（此处任意命名为 e ) ，并令其等于最近回归所得到的残差。 

graph twoway lfit y 

画出 y 相对于 x 的散点图 （ scatterplot :) ， 并加入简单回归线 （ lfit ， 即线性 


ethni 


regress y 


income 


resid 


scatter y 


拟合) 


线性回归分析 I 139 


scatter y 


graph twoway mspline y 


t 


在 y 对 x 的散点图上加画简单回归线，（用修匀的立方样条曲线）连接回归预测值 


( 本例中变量名为 yhat ) 


中画回归直线或者曲线时有很多选择。它们包括 twoway 制图类 

型的 mspline (如 上所 示）、 xnband 、 line 、 lfit 、 lfitci 、 qfit*qfitci ，并且每 

一 种都有其自身的优点和不同选项。通常，我们将直线或者曲线和散点图组合（叠并)起 
来。如果像上面的示例那样，散点图在我们的 graph twoway 命令中排在第二位，散点 

将打印在回归线的上层。如果在命令中先写散点图命令，那么回归线将打印在散点的上 

层。在本章和后面章节中的示例阐明了这些不同的可能性。 


注 意：在 


Stata 


rvfplot 

自动采用最近的回归分析结果画出残差对拟合值 （ 即预测值）的标绘图 （residual 

fitted plot) 

_ graph twoway scatter e yhat f yline(0) 

用变量 e 和 yhat 画出残差对预测值的标绘图 （residual 

values plot) 0 


versus 


o 


predicted 


versus 


1 x2 x3 


regress y 


执行 y 对 xl 、 x 2、 x 3 这三个预测变量的多元回归 Q 

2 x2 x3 f robust 


regress y 


计算稳健标准误的 （ Huber / White 法）估计值。详情参见《用户指南》 （ User 
Guide) o robust 选项在许多其他模型的拟合中也同样可以应用。 

1x2 x3 , beta 


s 


regre 




y 


执行多元回归，并且将标准化回归系数（又称“ (3 权数”， beta weights) 包含在输 


出表中。 


correlat 


2 x3 y 


显示皮 尔逊相关矩阵 （matrix of Pearson correlation) ， 使用的数据仅包括 


那些在所有指定变量均无缺失值的案例。如果加上 covariance 选项，将输出方差协 

方差矩阵来取代相关矩阵。 


2 x2 x3 y f sig 

显示皮尔逊相关矩阵，采用配对删除 （pairwise deletion ) 的方法去掉缺失值， 

并显示对每个相关系数进行 H 。 ： p =0的 t 检验概率。 

• graph matrix xl x2 x3 y r half 

画散点图矩阵。由于变量列表相同，这一示例产生的矩阵和前面的 pwcorr 命令产 
生的相关矩阵具有同样的排列方式。因变量 y 列在最后面，这使得最底部的一行形成 一 
系列 y 对 x 之间的标绘图。 

test xl x2 

执行 F 检验，虚无假 设为: 在最近的回归模型中, Xl 和 W 的系数都等于零。 

1 x2 


pwcorr 


catvar^x2 


xi : 


regress y 
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执行对 y 的“扩展交互效应”回归，预测变量为 XI 、 x 2 和一套自动生成并代表分类 
变量 catva 各类别的虚拟变量以及一套交互项，交互项等于虚拟变量和测量型变量 
的乘积。 help xi 给出了有关详情。 

1 x 2 x 3 r pr (.05) 

执行反向剔除的逐步回归，直到所有保留的预测变量都在 0.05 水平上显著。所有列表 

上的预测变量都进入第一次迭代，此后每一步迭代去掉 P 值最高的预测变量，直到所有 

保留下来的预测变量的概率值在“保留概率”以下为止，这就是 pr(.05) 选项的意义。 

其他选项允许正向纳入法或者分层选择。对于许多其他模型拟合命令来说，都存在着不 
同的逐步分析方式。键人 help sw 可以得到一个清单。 

■ 

y xl x2 x3 [aweight = w] 

执行 y 对 xl 、和 x 3 的加权最小二乘回归 （WLS ) 0 变量 v / 代表分析权数 

ght )， 这种加权相当于我们将每一个变量和常数都乘以 w 的平方 
根、然后所执行的常规回归。当 y 变量和 x 变量为平均数、率或者比例，并且^是每一汇 
总观察（如城市或学校）中的个体数目时，分析权数通常用来校正异方差性 

( heteroskedasticity ) 。当 y 和 x 为个体层次变量，而权数表示重复测量时，则应 

该采用频数权数选项来加权，即 [fweight = w ]。 当权数表示设计因子 （ design 
factors) ,比如，非等比抽样，请参见 help 

(x z) 

(X z) 

使用工具性变量 X 和 Z 估计 yl 和於之间的相互作用，第一部分命令定义了结构方 


sw regress y 


regre 




(analytical 


wei 


regress yl y2 
regress y2 yl 


程 


yl = 


+ 


命令中的括号包含了在所有方程中的外生 （ exogenous ) 变量。在这个例子中， 
regress 完成了两阶段最小二乘 （ two-stage least squares ，2 SLS ) 分析。 

2 x3 


regress y 


对 y 就预测变量 xl 2 和 x 3 进行回归，并对复杂抽样设计进行恰当的调整。我们 
假定先前曾用 svyset 命令设置过数据，已经指定分层、群集和抽样概率。键入 help 
svy 可列出能用于复杂抽样调查数据的多种程序。 help regress 概括描述了这一单 
独命令的程序 语法; 更详细的内容请参考《用户指南》和《调查数据参考手册 》 （Surrey 


Data Reference Manual) 


treg y xl x2 x3 

用一般化最小二乘法 （ GLS ) 可拟合具有随机效应的面板（即横剖时间序列, 

es) 模型。 一 条面板数据中的观察值由第 i 个单位在 
时间 t 的信息组成，并且每一个单位都有多次观察。在使用命令 xtreg 之前，用来确定 
单位的变量由命令 iis (表示是”， i is) 来指定，用来确定时间的变量则用命令 tis 

(即“ t 是”）来指定。 一 旦数据被存盘，这些定义就被保留下来，供 xtreg 和其他 xt 程 
序在将来进行分析 。 help xt 可以列出可用的面板估计程序。 help xtreg 给出这一 

命令的程序语法以及印刷版文档的参考信息。如果所用数据的每个单位都包括很多观 


, re 


cross-sectional time seri 


【 译注： 翻译中由原作者对下面公式作了修改。】 


%20s 


str20 


i n t 

byte 

long 

float 

float 

byte 


State 

Mean composite SAT score 
Per pupil expenditures prim&sec 
% HS graduates taking SAT 
Median household income 
% adults HS diploma 
% adults college degree 
Geographical region 


region 


state 

csat 

expense 

percent 

income 

high 

college 

region 


value 

label 


storage display 
variable name type format 


variable label 


high college region 


describe state csat expense percent 


xncome 


政治领导人偶尔使用学术能力测试 （Scholastic Aptitude Test , SAT ) 的平均 

分数对美国各州教育体系进行有针对性的评价。例如，有人提出教育支出多的州是否 
SAT 成绩也较高的问题。我们可以通过对平均综合 SAT 成绩 （ csat ) 就学生人均支出 

( expense ) 进行回归。适当的 Stata 命令形式为 regress y ，这里 y 是被预测的变 

量或者说是因变量，而 x 则是预测变量或自变量。 


iregress csat expense 

Source 


Number of obs 

49) 


51 


df 


MS 


ss 


13*61 

0.0006 

0,2174 

0,2015 

59.814 


F( 


Prob > F 
R-squared 
Adj R-squared 

Root MSE 


1 48708.3001 

49 3577 # 67775 


Model I 48708.3001 

175306,21 


Residual 






Total I 224014,51 


50 4480*2902 


terval] 


(K 001 
0 * 000 


0344077 

995*0175 


0101436 
1126,447 


expense t 

cons [ 


0222756 

1060*732 


0060371 

32.7009 


-3.69 
32,44 








_ 


* 






【译 注 : 在翻译过程中，此命令及有关解释由原作者进行了修改。】 
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6线性问归分沂 


察，采用时间序列方法就更为合适。 Stata 的时间序列程序（在第 U 章中介绍）提供了 
分析面板数据的进一步工具。详尽的描述请参考《纵向/面板数据参考手册》 


(Longitudinal / Panel Data Reference Manual) 


xtmixed population year 


y: year 


假定有不同城市每年的人口数据。和常规回归相似，命令中的 xtmixed 

population year 部分定义了“固定效应” （ fixed - effect ) 模型，该模型描述人口的平 
均变动趋势。命令中的 city: year 部分则定义了 “随机效应” （ random - effect ) 模 

型，允许每一个城市具有特定的截距和斜率（即不同的起点和增长率）。 


distri t : pctcollege 


xtmixed SAT grades prepcourse region 


拟合一个分层的（即嵌套的或多层的）线性模型，并将学生的 SAT 成绩作为如下因 

素的函数进行预测 7 :个体学生的年级 （ evades ) 以及是否参加了某门预备课程 

■ 

(prepcourse) ;该校所在的地区 （ region ， 它仅仅影响 y 的截距）；还有本校区 

(district) 成年人中的大学毕业生比例 （ pctc * olJege )。 欲知其更多详情，请参见 
《纵向/面板数据参考手册》中关于命令 xtmixed 的内容。 


苟炽表 


文件 stateadta 包含了美国各州以及哥伦比亚地区的教育数据。 








S td 


Coe 


csat 


[95% Conf 


畢 





9 0-90 999 

o o o 

'• * o * * ■ 

9 9 9 19 9 9 
% % % % % % % 


o o o 


■ 
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这一回归结果颇为令人意 外:州 教育开支越多，学生的平均 SAT 值反而越低。虽然 
任何因果解释在此时为时尚早，但回归表确实传递了 csat 和 expense 之间的线性统 
计关系。基于表顶部左边的离差平方和，表顶部的右边给出了整体 F 检验结果。 F 检验 
用来评估关于模型中所有 x 变量（此处只有一个 x 变量， expense ) 的系数都等于0的 
虚无假设。 F 统计量等于 13.61 ，其自由度为 1 和 49 ， 很容易地导致拒绝这一虚无假设 
(P =0.000 6 )。 Prob>F 指的是，在虚无假设为真的情况下，我们从这样一个总体中随 

机抽取样本时“出现较大 F 值的可能性”。 

在顶部右端，我们还看到确定系数 （ coefficient of determination) , i ? 2 = 
0.217 4 。 学生人均支出解释了州际平均综合 SAT 成绩差异的 22% ，调整的 J? 2 , 即圮， 

考虑了由数据复杂性带来的模型复杂性，于 是有杧 = 0.201 5 。 这一调整统计量往往为 
研究提供了更为有用的信息。 

回归表的下半部给岀了拟合模型。我们在第一栏看到回归系数(斜率和 y 的截距）， 
由此得到预测 方程： 

预测值 csat = 1 060.732 - 0.222 756 


expense 


第二栏列出了系数的估计标准误。它们用来进行 t 检验（第 3〜4 栏），并计算每一 

回归系数的置信区间（第 5 〜 6 栏）。 t 值（各系数除以它们各自的标准误）检验总体中 
相应系数等于0的虚无假设。在 


0.0 5 的显著水平下，根据 expense 的系数 （P = 
0 .001) 和 y 截距的系数 （ “0.000 ” 的结果意味着 P < 0.000 5 ) ，我们可以拒绝虚无假 
设。 Stata 的模型命令例行地输出 M% 的置信区间，但我们可以通过指定 l eve i () 选 
项来要求其他水平的置信区间，如下 所示： 


regress csat expense, level(99) 


由于这些数据并不代表从美国各州大总体中抽出的随机样本，因此假设检验和置信 
区间都不具备它们的通常意义。本章对此讨论不过是出于示范的目的。 

这一项代表回归常数，通常设为1。除非我们告诉 Stata 不要常数项，否则 
它将自动包括一个常数项。选项 

回归。例如， 


cons 


将使 Stata 取消常数项，并执行通过原点的 


nocons 


regress y 


nocons 


或者 


regress y xl x2 


3 , 


nocons 


在某些高级应用中，用户需要指定自己所设的常数项。如果“自变量”中包括用户补充的 
常数项（例如，取名叫 c ) ，那就采用 hascons 选项来代替 


nocons 


f hascons 


regress y c 


在这种情况下使用 
的内容请参考《基础参考手册》，或者使用 help 


将得到一个令人误解的 F 检验和 


更多关于 


nocons 


hascons 


o 


命令咨询。 


regress 


多元回 ! /sr 


多元回归允许我们在考虑到其他一些预测变量的同时估计 
的。我们可以通过简单地将那些自变量列在命令中来引入 csat 的其他预测 


是如何预测 


exp ense 


csat 


变量 


0044709 

2538491 
0011661 
992247 

1 . 660U8 
59.29228 


0033528 
-2.618177 
0001056 
1_ 630841 
2*030894 
851.5649 


expense | 

percent t 
income t 

high 

college | 

cons I 




■ 


* 


■ 


■ 


參 


070185 
-1.024538 
0101321 
1361672 
1263952 




* 




_ 


0 


0 


0 


0 


0 


0 


标准化的回归方程为 


由 


预测值 csat * = 0.01 expense* - 1.024 5 per cent * -h 0.01 income 


+ 


Beta 


P> I t 


Coef 


Std, Err 


t 


csat I 


由此得到多元回归 方程： 

预测值 csat =851.56 +0 .003 35expense -2 £18percent +0 .000 1 income 

1 .63high +2 .03 college 

控制其他四个变量削弱了 expense 的影响，由 -0.022 3变为 0.003 35 ，这一系数不再 

显著地区别于0。在先前的简单回归中所发现的 expense 和 csat 之间令人意外的负 

向关系显然可以被其他预测变量解释 

只有 percent (参加 SAT 考试的高中毕业生比例）的系数在 0.05 的水平下显著。我 

们可以按照如下方式理解这一 “ 四阶偏回归系数 （ fourth-order partial regression 

f f icient ) ” （ 之所以这样说是因为它的计算按四个其他自变量做过调整 ） 0 

high 和 coJJegre 保持不变的情况下，参加 

SAT 考试的高中毕业生比例每增加 1 个百分点，预测的 SAT 平均分数下降 2 . 6 ： L8 分。 

总的来说，模型中的五个变量解释了 80%的平均综合 SAT 成绩的方差 （ 

0.804 8)。相比之下，我们早期用 expense 作为唯一预测变量的简单回归仅仅解释了 

csat 方差的 20 % 

如果要得到某一回归的标准化回归系数 （“ beta 权数”），加上选项 beta 即可。标 
准化回归系数是我们在一个所有变量都被转化为标准分（平均数为0，标准差等于1 ) 后 
的回归中所看到的系数。 


+ 


o 


coe 


b2 = -2.618 expense 


income 






2 


a 


o 


high colleger beta 


regress csat expense percent 


xncome 


51 


Number of obs 

45) 


df 


MS 


ss 


Source 




42*23 

0,0000 

0.8243 

0.8048 

29.571 


F( 5 f 
Prob > F 
R-squared 
Adj R-squared 
Root MSE 




5 36932 - 6617 

45 874.471137 


Model ] 184663*309 

Residual I 39351.2012 






50 4480.2902 


224014 * 51 


Total 




0123576 
-2.106898 
0024542 
3,629329 
5 - 374544 
970,9857 


醫 


暑 


005652 
-3.129455 

002243 
367647 
一 1 • 312756 
732 • 1441 




» 




* 




_ 


0044709 

2538491 
0011661 
992247 
1 .660118 
59,29228 




番 




4 


0033528 
-2.618177 

0001056 
1 . 630841 
2 .030894 

851 . 5649 


4 


* 


expense 

percent 

income 

high 

college 

cons 


expense percent income high college 


regres csat 


Number of obs 

45) 


MS 


df 


SS 


Source 


F ( 


Prob > F 
R-squared 
Adj R-squared 
Root MSE 


5 36932 - 6617 

45 874,471137 


Model I 184663,309 

Residual I 39351.2012 






50 4480.2902 


224014,51 


Total 


[ 95% Conf * Interval] 


P> I t I 


Std ， Err 


t 


Coef 


csat 
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b 




7 0 8 7 8 0 


5 0 2 0 2 0 
4 0 9 12 0 


5 1 9 4 2 6 
7 3 0 6 2 3 


0 8 7 8 0 
0 2 0 2 0 


19 4 2 6 
3 0 6 2 3 


5 


2 0 4 4 7 
*0205 














3333 

0953 

5714 

6666 

1905 


- 62.3333 

- 60.09526 

-52 * 5714 
-51•66666 I 
- 49,19049 


South Carolina 

West Virginia 
North Carolina 

Texas 

I Nevada 


2 


3 


5 


残差最低的四个州都属于南方，表明我们可以在一定程度上通过考虑地区因素来改进我 
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0.13 6higrh* + 0.12 6 college* 

这里， csat*、expense * 等为这些变量的标准分形式。我们可以按以下方式来解释 
percent 的标准化 系数： 


1.024 5 : 在 expense ^ income^high fU college 不变条件下，参加 SAT 

考试的高中毕业生比例 (percent) 的每一标准差单位的提高将导致 SAT 平均分数预测 

值上 1.024 5 个标准差单位的下降。 

这个回归在 F 和 t 检验值、#和其他方面其实都保持不变。 


b . * 




预測值及戌差 


在任一回归分析之后，命令 predict 可以获得预测值、残差和其他对案例的统计 
量。假设我们已经对综合 SAT 成绩就其影响最强的单个解释变量进行了 回归： 


regress csat percent 


现在，仓! I 建一个叫 yhat 的新变量来存放从回归中得到预测的 y 值。 


predict yhat 
label variabl 


yhat "Predicted mean SAT 


score 


通过 resid 选项，我们还可以创建另一个新变量来存放残差，这里取名为 


e 


predict e, resid 
label variable e 


Residual" 


我们也可以改用两条 generate 命令获得同样的 y 预测值以及残差 


generate yhatO : 
generate 


[cons] + 
csat - yhatO 


[percent] ^percen 


Stata 会暂时记住回归系数和最近回归产生的其他信息。因此， _b[ variaa/ne] 

的回归系数。 _b[_con] 则是指常数项系数（通常，就是指 y 的 

截距）。这些暂存值在编程和一些高级应用中十分有用，但作为最重要的目的， predict 
免去了我们用“手工”方式创建 yhatO 和 eC >。 

残差包含了模型在哪里拟合较差的信息，因而对诊断分析或者排除故障的分析很重 
要。这样的分析可以从对残差的排序和检查开始。当我们高估了观察值:就会出现负的 
残差。也就是说，当我们基于参加测试的学生比例去预测时，有些州的实际平均综合 

成绩就会低于我们的预测值。为了列出残差最低的五个州，键人 命令： 


就是指自变量 


varname 


SAT 


ort 


list state percent csat 


1 / 


yna 


state 


percent 


csat 


yhat 


9 8 9 2 6 
8 9 8 9 9 


3 2 4 7 1 
8 9 8 8 9 
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线性回归分析 


们的模型，更好地理解平均 SAT 成绩的差异。 

当实际的 y 值高于预测值的时候会出现正的残差。因为数据已经按 e 排序，为了列 

出最高的五个残差，我们加上选择条件 


/I 


表示倒数第 5 个观察值，英文字母 “ e 1 ” （ 注意这里不是数字 “ 1 ” ） 表示 
个（ last) 观察值。选择条件 in 47 /I 或者 in 47 /S1 可以完成同样的事情。 

- 5/1 


选择条件中 


最后 




list state percent csat yhat 


yhat 


csat 


percent 


state 


48 * 66673 
54.14292 
62.28567 
64 . 11434 
80.04758 


896 847.3333 

897 842.8571 

6 1073 1010,714 

75 921 856.2856 

5 1093 1012.952 


79 


4 7. I Massachusetts 

Connecticut 

4 9, I North Dakota 
50, I New Hampshire 

I owa 


81 


48 


51 


predict 也可以从最近拟合的模型中导出其他统计量。下面是一些可以在 

或者 regress 后使用的 predict 选项。 

• predict new 


anova 


预测 y 值。 predict new, xb 意味着做同样的 

事情 (Xb 表示 X 向量乘以 b ， 其实就是 y 预测值 
向量） 

Cook 的 D 影响统计量。 

COVRA TIO 影响统计量，指每个观测值对估计值 

的方差协方差矩阵的影响。 

， dfbeta(xl ) DFBETA 统计量测量每个观测值对自变量 xl 的 


predict new ， cooksd 
predict new 9 covratio 


predict DFxl 


系数的影响。 

DPT TS 影响统计量。 

测量杠杆作用 (1 ever age) 帽子矩阵 (hat matrix) 

的对角 ^£ 素 。 

残差。 

标准化残差。 

学生分布（ studentized) 标准化 ( 刀切法 ) 残差。 

单个预测值 y 的标准误，有时候叫做预报标准误 

或者预测标准误。 

预测的 y 平均数的标准误。 

残差的标准误。 

Welsch 氏距离 （ Welsch’ s distance ) 影响 

统计量。 

更多的选项还包括预测概率和期望值;键入 help regress 可以得到清单。所有的 
predict 选项都创建案例统计量，并形成新变量 ( 就像预测值和残差），并且样本中的每 

个观察案例都有这些变量的取值。 

使用 predict 命令时，用户可以用一个自己选择的新变量名代替上述命令中的变 
量 new 。 例如，要获得 Cook 的 D 影响统计量值，键 入： 


predict new, dfits 
predict new, hat 


predict new，resxd 
predict new, rstandard 
predict new，rstudent 
predict new, stdf 


m 


predict new, stdp 
predict new, stdr 
predict new, welsch 
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predict 


cooksd 


或者通过键入如下命令，可以获得帽子矩阵的对角线 元素： 

I 

.predict h f hat 

predict 所创建变量的名称（例如 ，沖 at , ejj ) 是任意的，并且由用户指定。正如 

Stata 命令的其他元素，我们可以用最小数目的字母来缩写这些选项来使其唯一性地辨 
认。例如， 


predict e, resid 


可以被简 写为: 


pre 


re 


却歧的基本固形 


这一节介绍一些基本图形，用户可以用它们来描绘一个回归模型或者检查其拟合的 
情况。第 7 章描述更多专门的图形，它们主要用来辅助回归后的诊断工作。 

在简单回归中，预测值取决于回归方程定义的直线。通过按坐标描点并连接预测 
值，我们可以让这条直线显示出来。命令 ifit (线性拟合）自动地画出简单回归线。 

■ graph t 

通常，像图 6.1 那样在回归直线图上叠并一张散点图会更好 地引起人们的 注意。 


y lfit 


percent 




csa 


graph twoway lfit 

I I scatter csat percent 
I I f ytitle{"Mean composite SAT 


percent 


csa 


)legend(off) 

图 


score 




E 


8 


% HS graduates taking 祕 T 


我们可以用“手工”的办法画出图匕1，用回归后生成的预测值 （yhat) 和如下的命 
令形式 即可： 





1050 


1000 


900 


Fitted values 


画出图 6.2 的“手工”办法是 


y at r yline(0) 

图 6.2 显示出我们目前的模型从整体上给出了数据的明显分布模式。在一开始，残 

差说预测误差看起来大部分是正值（由于预测过高），接下来大部分是负值，然后又是大 

部分为正值。后面的各节将要寻求一个更好地拟合数据的模型。 

predict 可以为预测值创建两种标准误，它们有两种不同的应用。有时候可以通 

过“置信区间”和“预测区间”这样的名字来区别这些应用。在这样的区分背景下，置信 

区间表达了我们对估计 y 在给定 x 值(或者说在多元回归中给定 x 值的组合）下的条件 

平均数的不确定性。这种用途的标准误通过如下语句 获得： 

.predict SE r stdp 

需要选择一个恰当的 t 值。由于自由度为49,为了得到95 S 的置信区间，我们应该使用 
t = 2.01，这可以查询 t 分布表或者直接询问 Stata ： 

.display invttail(49 , • 05/2 ) 

2.0095752 

于是，可以用以下命令计算岀置信区间的 下限： 


graph twoway scatter 


线性回归分析 I 


bands(50) 


graph twoway mspline yhat percen ， 

catter csa 


percent 

f legend{off) ytitle("Mean composite SAT 


core 11 ) 


第二种方法需要做更多工作，但它为一些高级应用提供了更大的灵活性，比如说条件效 
应和非线性回归的标绘图。这种方法直接和预测值打交道，使得分析人员和数据以及回 
归模型正在做的事情保持更紧密的联系。当应用于线性预测值的时候， g ra P h twoway 
mspline (拟合50个交叉中位数的立方样条曲线）将简单地画出一条直线，但当应用于 

非线性预测值的时候，也能同样很好地画出一条平滑的曲线来。 

残差对预测值标绘图提供了有用的诊断工具（图 6 . 2 )。在任意回归分析之后（还有 

其他模型，如方差分析 ） ，我们可以自动画出残差对拟合值(预测值)标绘图，只需 键入： 

.rvfplot, yline(0) 


m 6*2 
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第二种类型的回归预测置信区间有时候被称为“预测区间”。它代表的是我们对用 
已知 X 值去估计未知 y 值的不确定性。这种情况下的标准误通过键人如下命令 获得： 

.predict SEyhat r tdf 

图 6 . 4 使用带有 Stdf 选项的 lfitci 命令画岀这种预测区间带。像图6 .4 那样 
预测 y 的个体观测值本质上涉及更大的不确定性，因而比估计 y 的条件平均数 （ 图6 .3 ) 
来说，其形成的置信区间带更宽。在两个例子中，最窄的波段都位于 x 的平均数处。 


graph twoway lfitci csat percent, stdf 

scatter csat percent f msymbol(O) 

I / ytitl ("Mean composite SAT 
titl (’’Confidence bands for Individual-case predictions ( 


) legend(off) 


score 


tdf) f, ) 
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generate lotrl = y 


Ol^SE 


t 


而置信区间上限为 


generate highl = yh t + 


01*SE 


简单回归中的置信区间带形状象沙漏，在 X 的平均数处最窄。我们可以像下面这样 
叠并多个 t y 作图： 


graph twoway mspline lowl percent, clpattern(dash) bands(50) 

I mspline highl percent f clpattern(dash) bands(50) 

I mspline yhat percent, clpattern(solid) bands(50) 

scatter csat percsnt 

f legend (of f) ytitle ( 11 Mean composite SAT 


score 


阴影区域图 （ shaded 

的办法来画这样的图，它将 JoW 和 highl 之间的区域涂上阴影。此外， lfitci 可以自 

动完成这个任务，并且完成区间带的计算，参见图 6 . 3 。注意 stdp 选项，它要求条件平 
均数的置信区间带（实际上是默认值）。 


range plots ) (参见 help twoway—rarea ) 提供了不同 


-area 


graph twoway lfitci csat percent r tdp 

catter csat percent f 
,ytitle("Mean composite SAT 
title{"Confidence bands for conditional 


ymbol(O) 


) legend(off) 

(tdp)») 


score 


mean 


6.3 


Confidence bands for conditional means (stdp) 
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correlate 仅仅使用在命令中列出的所有变量上都没有缺失值的那部分数据子集 
( 对于这些特定变量，这一点不重要，因为它们都没有缺失值）。在这方面， correlate 

比较相似，如果给定同样的的变量清单，它们将使用同样的数据子集。 

虽然有些分析人员不使用回归和其他多变量分析技术，但他们可能想基于所有可获得的 
观察案例成对变量值来计算相关系数。命令 pwcorr (配对相关 ， pairwise 

correlation ) 可以完成这一任务，并提供 t 检验概率来检验每一项相关等于零的虚无 


命令和 


regress 


假设。 


pwcorr csa expense percent income high college f ig 


high college 


income 


csat expense percent 


(obs-51) 


命令 correlate 用来获得皮尔逊积距相关 （Pearson product moment 

lation ) 

correlate csat expense percent 


corre 


O 


high college 


income 





就像常规最小二乘回归中存在着其他置信区间和虚无假设检验一样，刚才描述的标 
准误和置信区间也有赖于关于独立同分布误差的假定 （ assum P tion of independent 

and identically distributed errors ) 0 图 6.2 已经对这一假定提出 了质疑，因 

此图 6.3 和图 6.4 的结果或许会形成误导。 
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high college 


csat 


expense percent 


income 


1,0000 


csat 


-0.4 663 
0.0006 


1 _ 0000 


expense 


-0.8758 
0.0000 


percent 


0.6509 
0 *0000 


1.0000 


- 0 * 4713 

0.0005 


0.6784 
0.0000 


0 - 6733 
0.0000 


1 . 0000 


income 


high 


0.0858 

0 _ 5495 


0.3133 
0.0252 


0,1413 

0 • 3226 


0 . 5099 
0 • 0001 


1,0000 


college 


-0,3729 
0.0070 


0 - 6400 
0.0000 


0.6091 
0 • 0000 


0.7234 
0.0000 


0.5319 

0,0001 


1.0000 


这里我们值得去回忆一下，那就是如果我们从所有变量之间确实为 o 相关的总体中 

抽取许多随机样本，约有5%的样本相关仍将会在0.0 5 水平“统计性显著”。有的分析 

人员去査看许多单个相关的检验，比如，列在 pwcorr 结果矩阵中的那些系数，因为确认 

有一小部分系数在0.0 5 水平上显著，由此犯第一类错误的风险要比 0.05 高得多。这一 
问题称为“多重比较谬误 "(multiple 

Bonferroni 检验和 Sidcik 检验这两种方法将多重比较纳入考虑来调整显著性水平。 

其中，自 iddk 方法更为精确。 


命令提供的 


fallacy ) 


comparison 


pwcorr 


o 


pwcorr csat expense percen 


high college f sidak sig 


xncomB 


csat 


expense percent 


high college 


income 


1 . 0000 


csat 


-0,4 663 

0.0084 


1 • 0000 


expense 


-0.8758 
0 _ 0000 


percent 


0 * 6509 
0 . 0000 


1 • 0000 


-0,4713 
0.0072 


0 . 6784 
0.0000 


0 . 6733 
0.0000 


income 


1 -0000 


high 


0 * 0858 
1 _ 0000 


0 * 3133 
0 - 3180 


0.1413 
0 . 9971 


0.5099 
0.0020 


1,0000 


college 


-0 * 3729 
0,1004 


0.6400 
0.0000 


0.6091 
0,0000 


0.7234 
0.0000 


0,5319 

0.0009 


1.0000 


将上表中的检验概率和前面 pwcorr 结果中的概率相比较，可以知道出现了多大程度的 

调整。 通常来说，我们纳人相关分析的变量越多，调整后的概率超过原来概率就越多。 
相关公式参见《基础参考手册》有关 


的讨论。 

correlate 自身提供了几个重要的选项。加上 
差协方差矩阵来代替相关矩阵。 


oneway 


选项将产生一个方 


covariance 


correlate 


y z f covarxance 
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在回归分析后键入下面的命令将显示估计系数之间的相关矩阵，这有时可用于诊断多元 

共线性（见第7 章）： 


correlate , 


coe 


下列命令将显示估计系数的方差协方差矩阵,标准误便可以由此导出 


correlate , coef covariance 


皮尔逊相关系数测量一条 OLS 回归线对数据的拟合优度。因此，这些系数具有和 OLS 
同样的假定和弱点，并且和 OLS —样，在没有检查相应的散点图之前不宜进行解释。散 
点图矩阵提供了完成这一任务的快捷方法，它使用和相关矩阵同样的结构。图 6.5 显示 
了对应先前 pwcorr 矩阵的散点图矩阵。这里仅画出了矩阵的下三角部分，并且用加号 
作为散点标志。这里，我们去掉了 y 轴和 x 轴的标签以保持图形的整洁。 


high college f 


graph matrix csat expense percent 

hal£ msymbol(+) maxis(ylabel(none) xlabel(none)) 


mconie 


图 6.5 
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我们需要对命令进行条件限制来获得与 correlate 相关矩阵对应的散点图矩阵， 

因为所有带有缺失值的观察要被事先删除。如果所有的变量都有缺失值，我们应该键人 
这样一条命令： 


graph matrix csat expense percent income hi 

expense < . & income < . & high<. & 


college if 
college < . 


csat < 


为了减少混淆和错误的可能性，很值得创建一个新数据集并仅仅保存那些没有缺失值的 
观察数据 

keep 


csat < 

& college < 

ave nmvstate 


hi 


expense < 


income < 


< 


在这个示例中，我们直接用新名字的文件来保存简化后的数据，以避免不小心覆盖和丢失旧文 
件中更为完整的数据。另一个可以选择的办法是使用 drop 代替 keep 来删除缺 失值： 

drop 


csat >= 

I college >= 

ave nmvstate 


expense >= 


hi 


income >= 


>= 
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除了皮尔逊相关系数， Stata 还可以计算几种基于序次 （ rank - based ) 的等级相关系 

数。它们可以用来测量定序变量之间的联系,或者作为皮尔逊相关的一种抗特异值的稳 
健指标。把测量变量转换成序次后， csat 和 expense 之间的斯比尔曼等级相关等价于 
皮尔逊相关。键人： 


spearman csat expense 


Number of obs 

Spearman T s rho 


51 


-0,4282 


Test of Ho: csat and expense are independent 

Prob > It I 


0 • 0017 


Kendall 的心（读 tau - a ) 、 r b (读 tau - b ) 的等级相关也可以从这些数据中容易地 

得到，尽管它们的计算在数据集较大时变得很慢。 


ktau csat expense 


Number of obs 
Kendall 1 s tau-a 
Kendall's tau-b 

Kendall f s score 

SE of 


51 


-0.2925 

-0.2932 




- 373 
123.095 


(corrected for ties) 


score 


Test of Ho : csat and expense are independent 

Prob > IzI = 0.0025 (continuity 


ted) 


correc 


作为对比，这里提供了皮尔逊相关系数及其（未经调整的） P 值 


pwcorr csat expense f sig 


csat expense 


1.0000 


csat 


-0-4663 
0.0006 


1.0000 


expense 


在这一示例中， spearman 相关值 （-0.428 2 ) 和 pwcorr 相关值 （- CL 466 3 ) 都比 ktau 

相关值（-0. 2 92 5 ^-0.293 2 )更大。这三者在拒绝没有关联这一虚无假设上的结论是 
一 致的。 


假设检膝 


在 regress 输出表中有两种类型的假设检验。与其他通常的假设检验一样，它们 

都是基于这样一个假定，即所分析的样本观察案例是从一个无限大的总体中随机并且独 
立地抽取出来的。 

1•整体 F 检 验:回 归表右上部的 F 统计量评价这样的虚无假设，即在总体中，模型中 
所有 x 变量的回归系数都等于0。 

2 •单个 t 检验： 回归表的第三栏和第四栏包含了单个回归系数的 t 检验。它们评估 
的虚无假 设是: 在总体中，每一个特定的 x 变量的系数等于0。 
t 检验概率是双侧概率。对单侧概率，把 P 值除以2即可。 

除了这些标准的 F 检验和 t 检验， Stata 也可以对用户指定的假设进行 F 检验。 
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举—个 


test 命令引用最近执行的模型拟合命令的结果，比如说 
例子，下述回归报告中的单个 t 检验指出，成人中具有高中以上文凭的比例 （ Mgh ) 和具 
有大学文凭的比例 （ coJlege) 都对综合 SAT 成绩没有显著的单独 影响。 


或 


regress 


anova 


high college 


regress csat expense percen 


income 


但是，从理论上看，两个因素都反映州人口的的教育水平，并且出于某种目的，我们 

可能想检验是不是两者的影响同时为零。为了实现这一点，我们在一开始“悄悄地”（加 
上了 quietly 选项）重做了多元回归，因为我们并不需要再次看到全部的输出结果。然 

后，我们使用 test 命令： 


high college 


quietly regress csat expense percent 
test high college 


income 


(1) high =0.0 

{2) college 


0 . 0 




45 ) 


3.32 
0.0451 


F( 2, 


Prob > F 


和单个虚无假设不同，可以有根据地拒绝关于 high 和 college 同时等于零的这 
个联合虚无假设。当我们有几个概念上相关的解释变量，或者由于多元共线性（第7章) 
导致单个系数估计显示出不可靠时，这种关于系数子集的检验就非常有用了。 

test 还能够复制整体的 F 检验： 


test expense percent Income high coll 


test 还能复制出单个系数检验: 


test expense 

test percent 

test income 


，等等。 test 在高级任务中更加有用，这些高级应用包括 

1.检验某一系数是否等于指定的常数。例如，检验 
假设 （ H 。 ： p 3 = 1 ) ，以代替通常情况下关于其等于0的虚无假设 （ H 。 ： p 3 = 0) ，键入 


的系数等于1这一虚无 


income 


test income 


2. 检验两个系数是否相等。例如，下面的命令评价虚无假设 （ H 。： （3 4 = |3 5 )： 

test high = college 

3. 最后， test 还能接受某些代数表达式。我们可以要求检验一个虚无假设 （ H 。： p 
= ( p 4 + p 5 )/100)： 


(high + college )/100 

更多的信息和示例请参考 help test 。 


test xncome 


唐相支量 


分类变量被表示成一个或者多个“虚拟变量” （ dummy variable) ，它们都是取值 

为|0，1丨之一的二分变量。这时，它们可以成为回归中的预测变量。例如，我们有理由 

猜想在州平均 sat 成绩中存在着地区差异。如果我们加上 gen (创建， genarate 缩 


%8 


■ 


%8 


* 


%8 


* 


% 8 - 


region==Wes | 

t I 


Freq 


Percent 


regress csa r g2 


Source 


SS 


df 


MS 


Number of obs 


F( 


Model I 
Residual | 


35191.4017 
177769.978 


1 35191,4017 

48 3703.54121 


Prob > F 
R-squared 
Adj R-squared 

Root MSE 






Total I 212961.38 


4 9 434 6.15061 




reglon==West 

region=-=N. East 
region==South 
region==Midwes t 


Cum 


West 

N. East I 
South I 

Midwest I 


13 


26-00 

18.00 

32,00 

24.00 


16 


12 


将 csat 对一个虚拟变量 reg 〗 （东北部）进行回归等价于执行在 re g 2 各类别上 

csat 平均数是否相同的两样本 t 检验。也就是在问 ：东北 部州的 csat 平均数是否和 
美国其他的州一样？ 


Total 


50 


100. 00 


Total I 


50 


100.00 


describe regi- reg4 


storage display 
variable name type format 


value 

label 


variable label 


tabulate region f gen(reg) 


Geographica I 

1 region | 


Freq 


Percent 


Cum 


41 


82.00 

18.00 


82.00 

100.00 


9 


0 


37 


74*00 

26.00 


74.00 
100.00 


13 


Total 


50 


100,00 


tabulate reg2 


region==N * | 

East I 


Freq 


Percent 


Cum 
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写)选项，命令 tabulate 将为列表中分类变量的每一类别创建一个虚拟变量。下面，我 
们根据四种分类的变量 regi on 来创建四个虚拟变量。这些虚拟变量取名为 regl 、 
reg 2 、: reg3 和 reg4 。对西部的州来说，虚拟变量 regi 等于 1 ，而其他的州则等于 0 ; 对 

东北部的州来说，等于1，其余的州则等于0 ;如此等等 


O 


csat I 


Coe f 


Std• Err 


t 


P> I t 


[95% Conf * Interval] 


reg2 | 
cons I 


- 69,0542 
958.6098 


22,40167 

9.504224 


-3,08 

100.86 


0.003 

0.000 


-114.0956 
939.5002 


-24.01262 
977.7193 





9 9 9 

o o o 


g 

o 


e e e e 

t t t 

yyy 

b bbb 


t 

y 




e 


r 


e 


t 


a 


u 


b 


a 


12 3 4 
g ggg 
e e e e 

r r r r 


t 


0 0 4 2 9 
5 5 3 5 7 


5 


*0648 

-y -u IX i ^ 一 ■ 


• * o 
0 0 6 


o 


o o o o 

o o o o 

6 4 6 0 
2 4 7 0 














regress csat r&g2 percen 


Number of obs 
F( 2, 

Prob > F 

R-squared 
Adj R-squared 
Root MSE 


df 


Source 


MS 


SS 




47) 




Model 丨 174664.983 
Residual | 38296.3969 


2 87332 * 4916 

47 814 * 816955 




212961 * 38 


49 4346.15061 


Total I 


Ha: diff != 0 

3,0825 
0*0034 


Ha: dxff > 0 

3 • 0825 

0.0017 


Ha: diff < 0 

3.0825 
0 - 9983 


t 


t 


P > I t 


P > t 


P < t 


然而，一旦我们控制了参加考试学生的比例这一变量时，这一结论就被证明是靠不 
住的。为此，我们将 csat 对 reg 2 和 percent 进行多元回归： 


Degrees of freedom : 48 


diff 二 0 


Ho : mean ( 0 ) 


mean (1) 














现在，东北部地区变量 reg 2 有了统计性非常显著的正值回归系数 = 57.524 37, 

p< 0.000 5)。这说明早先取得的负系数是误导性的。虽然东北部各州的平均 SAT 值 
确实要低一些，但它们之所以低，是因为在东北部地区，较高比例的学生参加了这一测 
试。在许多其他地区的州，只有较少的、更加“精英化”的学生群体才参加这一测试，他们 
通常还不到高中高年级学生的20%。然而，在东北部各州大部分学生（64%〜81%)都参 
加测试。一旦我们对参加测试比例的差异加以调整，东北部各州的 SAT 成绩实际上反而 
更高 一 些。 

写出回归方程，并代人虚拟变量值，有助于理解虚拟变量回归结果。对东北部各州 

_ 

来说，回归方 程为： 

预测值 csat = 1 033.7 + 57*5 reg 2 - 2. 8 per cent 

=1 033,7 + 57.5 x 1 - 2.8 percent 
=1 091.2 - 2.8 percent 

对其他的州，其预测的 csat 值在任一给定的 percent 水平上都将低 57.5 分： 


[95% Conf - Interval] 


Coef 


Std. Err 


P> I t 


csat I 


57.52437 

-2.793009 
1033-749 


14.28326 
2134796 
7.270285 


4,03 
-13.08 
IA2 .19 


0.000 
0.000 
0,000 


28.79016 

-3.222475 

1019.123 


86.25858 
-2-363544 
1048*374 


reg2 | 
percent | 

cons I 


_ 


diff 


2 


69,0542 


114,0958 


40167 


24.01262 


■ 


66.37239 

13.95628 


937,66 

878*8278 


979*5595 

900.2833 


958.6093 

889.5556 


10.36563 
4,652094 


41 


9 


927 # 4442 


964 _ 9158 


9.323251 


65.92534 


50 


946.18 


combined I 


roup 


Std 


Obs 


Mean 


95% Conf 

_ 


ev 


Std 
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b 


虚拟变量回归系数的 t 统计量 （t = - 3 .0 8 ，P = 0.0 C > 3 ) 表明存在显著不同。根据这 
一回归，东北部各州的平均 SAT 成绩要低69.05 4 2分。我们从简单的 t 检验也能获得 
同样的结果 （ t = -3.08^ = 0.00 3 ),它还显示出东北部各州的平均数为 889 . 555 6 ,而 

所有其他州的平均数为 958.609 8,两者之间的差异为 69.054 2 

ttest csat r by <reg2) 


o 


Two-sample t test with equal 


variances 


terval 


0 8 0 2 5 5 
5 10 0 2 4 

*0215 
7 0 8 8 . 
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预测值 csat =1 033.7 + 57.5 x 0 - 2.8 percent 

=1 033.7 - 2.8percent 

在这种模型中的虚拟变量被称为“截距虚拟变量” （ intercept dummy variable), 因 

为它们描述了 y 轴上截距或者说常数的变化 

根据一个具有1个类别的分类变量，我们可以定义 k 个虚拟变量，但它们中有一个虚拟 
变量是多余的。例如，一旦我们知道某个州在西部、东北部和中部这三个虚拟变量的取值，我 
们就已经猜到它在南部虚拟变量上的取值。正因为如此，只有； c -1 个虚拟变量(在这个关于 
regrio/i 的案例中是 3 个)可以被纳入回归。如果我们试图包括所有可能的虚拟变量， Stata 

将会自动除去其中一个，否则将会因为多元共线性而导致计算无法进行 


o 


o 


regress csat regl 


2 reg3 reg4 percent 


re 


Source | 


df 


SS 


MS 


Number of obs 

45) 


50 


F( 


64 . 61 
0.0000 
0,8517 
0*8385 
26.492 




Model I 
Residual | 


181378,099 

31583.2811 


4 45344.5247 

45 701.850691 


Prob > F 
R-squared 
Adj R-squared 
Root MSE 




Total I 


2] 2 961,38 


A9 4346,15061 


csat 


Coef 


Std. Err 


t 


P> I t 


[95% Conf. Interval] 


regl | 
reg2 | 

reg3 
regd | 
percent | 

cons 


-23.77315 
25.79985 
-33.29951 
(dropped) 
-2.546058 
1047.638 


11 . 12578 
16*96365 
10.85443 


- 2.14 
1 , 52 

-3*07 


0.038 
0.135 
0.004 


-46.18162 
-8.366693 
-55.16146 


- 1 , 364676 

59,96639 

-11*43757 


2140196 
8.273625 


-11*90 

12 幻 62 


0.000 
0.000 


- 2. 977116 
1030 • 974 


-2. 115001 
1064 . 302 


* 


不管我们（或者是 Stata ) 选择省略哪一个虚拟变量 ，模 型的拟合情况（包括 只 2 、jp 
检验、预测以及残差）实质上保持不变。在这个示例中，中西部虚拟变量 （ reg 4 ) 被省略 

了。 regl , reg 2 以及 reg 3 的回归系数告诉我们，在任一给定的 percent 水平上，预测 
的平均 SAT 成绩大致 如下： 

西部 （ regl = 1 ) 比中西部低 23.8 分； 

东北部 （ reg 2 = 1 ) 比中西部高 25.8 分; 以及 

南部 （ reg 3 = 1 ) 比中西部低 33.3 分 

西部和南部都显著地低于中西部，但东北部并不是这样。 

另一个命令 areg 拟合同样的模型，但它并不需要先创建虛拟变量后再进行。它能 
吸收”一个; c 分类变量的效应，例如， region 。 其模型拟合、对吸收变量 （absorbed 

iable ) 的 F 检验和其他关键方面都和我们通过明确设立虚拟变量获得的结果完全 
一样。但是，要注意的是, areg 并不提供单个虚拟变量的系数估计。 


o 




var 


areg csat percent f absorb (region) 


Number of obs 

45) 


50 


F ( 


141.52 
0.0000 
0.8517 
0.8385 
26.4 92 




Prob > F 
R-squared 
Adj R-squared 
Root MSE 






csat 


Coef 


Std. Err 


t 


P> I t 


[95% Conf, Interval] 


percent | 

cons I 


-2.546058 
1035.445 


2140196 

8.38689 


-11.90 
123.46 


0.000 
0.000 


- 2.977116 
1013*553 


-2 ,115001 
1052.337 




regi on | 


F(3, 45) 


9* 465 0 .000 


(4 categories) 











Number of obs 
F{ 3 f 
Prob > F 
R-squared 
Adj R-squared 
Root MSE 


df 


MS 


SS 




Source 


46) 


3 59835.3968 

46 727.286733 


Model I 179506.19 
Residual I 33455.1897 




49 4346,15061 


Total 212961.38 


新变量 reg 2 perc 对于东北部的州来说等于 percent ，而对于其他州来说等于0。我 

们可以把这个交互项加入回归解释变 量表： 


csat reg2 percen reg2perc 


regres 


虽然 areg 的输出信息比带有明确虚拟变量的回归要少，但它有两个优点。首先，它 
加快了探索进程，因为很快就可以对一个虚拟变量是否值得研究作出反馈。其次，当我 
们所关心的变量有许多取值，那么为每一种取值创建虚拟变量对特定 Stata 配置来说， 
可能会导致变量太多或者模型过大。于是， areg 可以按照通常的数据限制和矩阵规模 


来工作。 


然而，明确的虚拟变量也有其他优点，比如，可以在模型中纳入交互效应。所谓“斜 

率虚拟变量 ” （slope dummy variables ) 的交互项可以通过将虚拟变量乘以测量型变 

量来形成。例如，为了把东北部相对其他区域这个地区因素和 P erCei7t 的交互相应纳 


入模型，我们创建了一个斜率虚拟变量，取名 reg 2 perc 


_ generate reg2perc = reg2 * percent 

(1 missing value generated) 
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交互项统计性显著 （ t = 2.58， P = 0.013 )◦ 由于这一分析同时包括截距虚拟变量 

(^返）和斜率虚拟变量（^9 2 062^)，值得我们写出方程。对东北部各州的回归方程 
大致为： 


预测值 csat = 1 035.5 - 24 1.4reg2 - 2.9percent + 4.2 reg2perc 

=1 035-5 - 241.4 xl - 2 *9percent +4.2 x 1 xpercent 

= 794.1 4 - 13percent 


对其他州 则为： 

预测值 csat = 1 035.5 - 241.4 x 0 - 2. 9 percent + 4.2 xO xpercent 

=1 035.5 -2.9 percent 

交互项意味某一变量变化带来的效应将依赖于其他变量的取值。从这一回归来看， 
它显示了 percent 在东北部的州中具有一个较弱的正影响，然而对其他州而言，它的影 

响要强一些，并且是负向的。 

为了将一个斜率和截距虚拟变量回归的结果可视化，我们有几种作图的可能性。甚 
至不用拟合模型，我们就可以像下面这样用 Ifit 来完成这项工作，其结果可以在图 6 .6 

中看到。 


[ 95% Conf. Interval] 


P> I t 


Std, Err 


t 


Coef 


csat 


-6.597821 
-2.449618 

7.440576 
1049.414 


-476.117 

-3,26804 
9187559 
1021.624 


0 • 044 
0.000 
0.013 
0*000 


-2.07 
-14 _ 06 

2.58 
150.01 


116.6278 

2032947 

1 * 620009 
6.902898 


-241.3574 
-2.858829 
4.179666 
1035.519 


reg2 

percent 

reg2perc 

cons 


4 


* 




0 7 0 9 7 8 
5 2 0 2 2 6 

0 4 3 9 
0 8 8 * 


2 
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label define rmg2 

label value reg2 reg2 

graph twoway Ifit csat percent 

scatter csat percent 

I , y ( reg2 , legend (of f) note (，"，）> 
ytitl ("Mean composite SAT 


other regions' 1 1 "Northeast 


score 


图 6,6 
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或者，我们可以先拟合模型，计算预测值，并使用它们来画出一张更为精致的图，就 
像图 6 . 7 那样。两条 mspline 命令中的 bands ( 50 ) 选项指定了基于 50 个垂直波段 
的中位样条，这些波段足够覆盖数据的范围。 


quietly regres csat r^g2 percent r&g2perc 
predict yhatl 


graph twoway scatter csat percent 

spline y tl percBnt 


x reg2 == 

reg2 == f cl attern(solid) 


j. 


bands(50) 


scatter csat percent 


reg2 == 1, msymbol(Sh) 

reg2 == 1, clpattern(solid) 


x 


splin yhatl percent 


bands(50) 


II r ytitle("Composite mean SAT 
legend(order(1 ) label(1 M other 

label( 


score") 
regions " 〉 

Northeast tat©s") position(1 ) ring(0)) 


O 


图 
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线性回归分折 


图 6.7 涉及 4 个重叠 ：两个 散点图（东北部州和其他州分别的 csat 对 Percent 

图）和两个中位样条标绘图（连接预测值沖 atl ，对东北部州以及其他州的 percent 作 

选项 msymbol ( Sh ) 要求东北部的州标志为中空的四方形。 ytitle 和 legend 

选项简化了 y 轴标题和图例。如果按照它们的默认形式，二者都会显得拥挤不堪、看不 


图) 


清楚 


图6_6和图 6.7 都显示出在东北部的州和其他州之间存在显著差别，这些差别被我 
们的交互项捕获到了。这进一步引起了还存在哪些其他地区差异的问题。图通过 

用不同的标志按 4 个地区画 csat 对 percent 的散点分布图探讨了这一问题。在这张 
图里面，中西部除了一个州 （ 印第安那，工 ndiana ) 外其他都位于图的左边，并且看起来具 

有其独特的陡峭、负向的地域模式。南部的州的异质性最高。 


f regl ==1 
2 ==1 , msymbol(Sh) 

symbol(T) 


graph twoway scatter csat percent 

|| scatter csat percent 

|| scatter csat percent 

|| scatter csat percent 
|| f legend(position(1) ring(0) label(X "West") 

label (2 "Northeast ”） label ( 


reg3 = 

reg4 == 1 f msymbol(+) 




Midwest”）) 


South") label( 


图 6-8 


f West Northeast 
t South + Midwest 
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分类支量的南场括访和支互项 


命令 xi (意为扩展交互项，即 expand interactions ) 简化了把多个多分类变量 

扩展为成套的虚拟变量和交互变量、并把它们用作回归或者其他模型的解释变量。例 
如，在数据 stude _ nt 2 .dta (第 5 章中用过）中，变量 year 有4种分类，代表大学生入学 

年数 ( 一年级 、二 年级，等等）。我们可以自动生成一套由三个虚拟变量组成的变量组，只 
需键入： 


• xi , prefix ( Ind) i . year 

这三个新的虚拟变量被命名为 indyear _ 2 ， i _ ndyear _ 3 和 indyear _4 0 prefix () 

选项用来指定新的虚拟变量命名时所用的前缀。如果我们只是简单 键入： 


year 


J 60 I 


应用 STATA 做统计分析 


而不给出任何 prefix( ) 选项，那么新的虚拟变量将被命名为_ _Iyear_2 ^ _Iyear_3 

m _lyear_4 (并且任何先前计算的变量如果和它们名字相同，将被新的变量覆盖）。要 
是键人： 

I 

drop 

则是采用通配符*来删除所有名字以 _ j 开头的变量。 

Xi 在创建虚拟变量时默认地省略分类变量的最小值，但是这可以加以控制。键人 命令： 


char dta[omjit 】 prevalent 


将导致此后的 xi 命令自动省略最普遍的类别（注意所用的是方括号）。 char _dta [] 
中的偏好是和数据存储在一 起的; 要想恢复默认设置， 键入： 


char dta[o 本 it] 


键入： 

char year[omit] 3 

将省略 year =3 这一类。要恢复默认设置， 键人： 

.char year[omit] 

xi 还可以创建涉及两个分类变量的交互项，或者是涉及一个分类变量和一个测量 
变量的交互项。例如，我们可以创立 year 和 firender 的交互项，只需 键入： 

.xi i . year*i . gender 

根据 year 的四个类别和 gender 的两个类别， xi 命令创建7个新变量，即4个虚拟变 

量以及 3 个交互项。因为它们的名字都以 一 J 开头，我们可以使用通配符 * 并用命令 

describe 来描述这些 变量： 

, describe I* 


storage display 
type format 


value 

label 


variable name 


variable label 


_Iyear_2 
Iyear 3 

_Iyear_4 
_Igender_l 
—IyeaXgen_2_l 
_IyeaXgen 3_1 

_IyeaXgen 4 1 


byte 

byte 

byte 

byte 

byte 

byte 

byte 


% 8 . Og 

%8 . Og 

%8-0g 
% 8 * Og 
%8 • Og 
%8 . Og 
%8 * Og 


year==2 


year = = 3 
year = = 4 

gender==1 

year==2 h gender==l 
year==3 & gender==l 
year==4 & gender==l 


要创建分类变量 year 和测量变量 drink(33 级饮酒行为量表）之间的交互项，只 


需键人 


year^drink 


于是出现了 6 个新变量: 3 个虚拟变量来表示 year ， 3个交互项来代表每一个 year 虚 


拟变量乘以 drink 。 例如，对一个大学二年级学生来说 ，_ T y ear 2 = 1，并且 


IyeaXdrink_2 = 1 x drink = drink s Q 对一个三年级学生来说， _ iyear _2 = 0,并 

0 ;同样地， _ Tyear _3 = 1，有 _IyeaXdrink_3 = 


且 __IyeaXdrink_2 = 0 x drink 




1 x drink 二 drinTc ， 如此等等。 


【 译注 : 这个交互项名称中的 year 被 Stata 将字母 r 自动简化掉了，其中的 X 代表乘号。】 



byte 

byte 

byte 

float 

float 

float 


_Iyear_2 

_Iyear_3 

_Iyear_4 

_IyeaXdrink_2 

_IyeaXdrin)c_3 

IyeaXdrink_^ 


year==2 

year==3 

year==4 

(yea r=—2)^drink 

(year==3> *drink 

(yea r== 4)^ drink 


0562146 

-1.204464 
8860487 
799868 








■ 




_ 


0124179 
0213297 

0218446 

2.934572 




_ 








* 


014CM02 

314782 
3044178 
2939595 










0164436 
016348 
, 016369 
2523984 


« 


争 


4 


0285369 
5839268 
2859424 
2203783 

(dropped) 
,0199977 
0108977 
- 0104239 
3,432132 




W 




鬌 




* 






, 


drink 
_Iyear_2 
_Iyear_3 

_Iyear_4 

drink 
lyeaXdrin 〜 2 
IyeaXdrin 〜 3 
I yeaXdrin 〜 4 

cons 


(naturally coded; _Iyear_l omitted) 
(coded as above} 


Iyear_l-4 
IyeaXdrink # 


l. year 

i .year★drink 


218 


Number of obs 

210 ) 


df 


MS 


SS 


Source 


3 _75 
0*0007 
0.1112 
0.0816 
44004 


F( 


Prob > F 
R-squared 
Adj R-squared 
Root MSE 


7 . 726951288 

210 .193633715 


Model 1 5,08865901 

Residual I 40,6630801 






Total I 45,7517391 217 ,210837507 




的真正方便之处在于它在回归或其他模型拟合命令中自动创建虚拟变量和交互 
项。例如，将变量 gpa (学生的大学平均等级分）对 drink 和一套 year 的虚拟变量进 

行回归，就简单地 键人： 


XI 


drink i • year 


P 


regre 


这一命令按以上描述的规则自动创建必要的虚拟变量。同样，将 gpa 对 drink、year 
以及 drinJc 和 year 之间的交互项进行回归，键入： 


yesr^drink 


regress p drink 


[95% Conf. Interval] 


P>l 11 


Std. Err 


t 


Coef 


gpa 
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线性回归分析 


b 


it 


describe Xyea 


value 

label 


display 

format 


storage 

variable name type 


variable label 


命令 i: 还可以应用于诸如 logistic (第 10 章）等其他模型拟合程序之刖。通 

常，它允许我们不用首先创建实际的虚拟变量和交互项就而将如下的解释变量（右侧）包 
括 进来： 


创建 J -1 个虚拟变量来代表 catvar 的:/个类别 

carvarl * i . catvar 2 创建 i -1 个虚拟变量来代表 catvarl 的 j ' 个类别; 

根据 catvar 2 的个类别创建 k -1 个虚拟变量;并 
创立 （ J ' - l )( ic - l ) 个交互项（为虚拟变量 x 虚拟变 

量 ）。 

创建 j -1 个虚拟变量来代表 catvar 的:/个类别， 
同时创建 J ' -1 个变量来表示分类变量和测量变量之 

间的交互作用（虚拟变量 xmeasvar ) 

在任何 xi 命令执行后，这些新变量将保留在数据中 


i •catvar 


O 


1 


i .catvar * measvar 


O 


o 


Ki 








g cn g g g g 

o o o o o o 


8 0 8 9 9 9 
% % % % % % 


17 9 4 3 5 5 1 
9 0 3 1 3 2 2 9 

ro IX IX IX QJ^ ^ro 

8 6 1 1 4-369 

0 6 4 9 2 4 2 2 
0 3 15 5 0 4 9 
0 0 3 3 


o 

' 


o 


3 


3 5 9 4 


5 6 5 0 

4-64 5 2020 

0 0 3 4 2 5 5 0 

• * __ 

o o o o 


o o o o 


3 6 4 5 2 7 4 0 
0 8 9 7 2 6 6 6 

_ _ _ , 

10 0 3 


2 10 0 


1 
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迷步闻 j /57 


随着我们前面在 states.dta 中加入虚拟变量项，我们获得了许多 csat 的可能解 
释因素。这导致了过度复杂的模型，其中一些回归系数与零之间并无统计上的显著 


差别 


o 


regress csat 

reg2perc reg3 


expense percent xncome college high regl reg2 


Source 


SS 


df 


MS 


Number of obs 
F ( 9, 

Prob > F 
R-squared 
Adj R - squared 

Hoot MSE 


50 


40) 


49.51 
0,0000 
0.9176 
0.8991 
20,941 


Model I 
Residual | 


195420.517 
17540,863 


9 217X3.3908 

40 438 * 521576 






Total 


212961.38 


49 4346.15061 


csat 


Coef 


Std, Err 


P> 11 


[95% Conf. Interval. 

■ 


_ 


-.0022508 
-2,93786 
0004919 

3 _ 900087 

2,175542 
-33.78456 
-143 .5149 
2.506616 
-8 • 799205 

839 - 2209 


expense 

percent 

income 

college 

high 

regl 

reg2 

reg2perc | 

reg3 

cons I 


0041333 
2302596 
0010255 
1.719409 
1,171767 
9.302983 
101 , 1244 
1 -404483 

12 _ 54658 

76,35942 


-0.54 
-12.76 
-0 . 48 

2.27 
1,86 
-3.63 
-1,42 
1 . 78 
-0 * 70 

10.99 


0.589 
0.000 
0,634 
0.029 

0,071 
0,001 
0.164 
0.082 
0.487 
0,000 


0106045 
-3,403232 
0025645 
4250318 
192688 
-52,58659 
-347,8949 
3319506 
*34.15679 

684.8927 


006103 
-2,472488 
0015806 
7,375142 

4 .543771 
-14.98253 
60.86509 
5 _ 345183 
16*55838 
993,549 


_ 




* 


» 


4 




擊 


晉 








* 




■ 




■ 


现在，我们试图来简化模型，首先剔除具有最高 t 概率的自变量 （ 

634 ) ，接着重新拟合模型以决定再剔除哪些因素。通过这种反向淘汰的过程，我们寻 
求更加简约的模型，即一个既比较简单而又能拟合较好的模型。理想情况下，在保留或 
淘汰变量的过程中，应该既注重其统计结果又注重其实际意义或理论意义 

对匆忙的分析人员来说，逐步法提供了模型选择的自动化之路。它们依照预先设立 

的统计标准，要么是从复杂模型中删除一些自变量，要么是给一个简单的模型加上一些 

自变量。逐步法并不在其选择过程中考虑变量的实际意义或者理论意义，也不评价和解 

决每一步模型中可能产生的缺点。不过，尽管有这些缺点，逐步法满足了某些实际需求 
并得到了广泛使用 

为了完成反向淘汰，我们可以下达 


income, P = 


0 


畢 


o 


o 


regress 命令，它将从我们纳人的所有可能 
的自变量中根据所需的最大 P 值为标准来进行取舍。将保留概率 （ P - to - retain ) 设为 

pr(.OS) 可以确保仅有那些系数在 0 . 05 水平显著不等于 0 的自变量被保留在模型中。 

首先剔除 income, 接下来是 reg3 ，然后为 


sw 


regres 




最后是 

reg 2, 才取得了最终模型。虽然最终模型已经删除了 4个自变量，但它和原先的模型 

相比具有几乎同样的 R 2 ( 0 .911 8 对比 0 


expense ^ 


917 6 )，而其 i ? 2 a 则反而更高 （0.901 8对 


比 0 .899 1 ) 


o 


regress csat expense percent 
reg2pGrc rsg3 f pr(.05) 


college high regl rmg2 


xncome 








-13.50309 

-2_ 755471 
8948967 

6.735046 
3 _ 879657 
907*4151 


ft 


-47.68128 
-3,482839 
2717577 

1•255944 
5829313 
705.9289 


* 




0.001 
0,000 
0.000 
0 • 005 
0.009 
0.000 


8.479395 
1804553 
1545969 
1.359331 
8178968 
49 . 98744 




者 




-30,59218 
- 3 • 119155 
5833272 
3 .995495 
2.231294 
806 .672 


_ 


regl I 
percent 
reg2perc 
college 

high 

cons 
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线性回归分析 




begin with full mode1 

_ 

= 0,6341 >= 0.0500 removing income 

= 0.5273 >= 0.0500 removing reg3 
0,4215 >= 0.0500 removing expense 
0.2107 >= 0•0500 


P 


P 


P 


reg2 


removing 


P 




50 


Number of obs 

F ( 5, 

Prob > F 
R-squared 
Adj R-squared 

Root MSE 


MS 


df 


SS 


Source 


91*01 
0 • 0000 
0.9118 
0 - 9018 
20 * 657 


5 38837.1521 

44 426*718624 


194185.761 

18775.6194 




Model 

Residual 




49 4346 _15061 


212961 * 38 


Total I 


[95% Conf. Interval ； 


P> I t 


Std. Err 


t 


Coef 


csat 


如果我们采用纳人 P 值 （ P - to-enter ) ， 例如， pe(.05) ，代替保留 P 值， 

将执行（向一个“空”模型即只有常数的模型）做正向纳人自变量，而不是反向 
剔除。其他的逐步法选项还包括分层选择以及在模型中锁定某些自变量。例如，下面的 
命令指定了第一项 （ xl ) 应该被锁定在模型中，因此它并不服从可能的剔除。 

(* 05) lockterml 

下面的命令要求正向纳入任何在0 .10 水平上显著的解释变量，但是对于变量 X 4 、 
沾和则需要作为一个整体来处理，或者是一起纳入模型或者是一起排除 在外： 

(. 10 ) 

下面的命令要求调用分层反向剔除，其中显著性标准定为 p = o - 2 0 

r ( .20) hier 


regress 


2 3 


sw regres y 


6) f 


12 3( 


regress y 


0 


6 ) 


12 3( 


sw regres y 


选项 hier 指定各变量项按序排列，首先考虑移除最后一项 （ x 7 ) ，如果没有被移除，则 
停止下来。如果 x 7 被移除，接下来考虑倒数第二项 （ x 4 x 5 x 6) 的移除，如此等等。 

除了 regress, 许多其他的 Stata 命令也有以相似方式工作的逐步法。可以采用 

的逐步法程序包括如下若干 类型： 


条件（固定效应 ） logistic 回归 

最大似然法的互补双对数回归估计 

删截 （ censored ) 正态回归 

一 般化线性模型 

logistic 回归（输出发生比） 
logistic 回归（输出系数） 

负二项回归 

序次 logistic 回归 
序次 probit 回归 

泊松回归 

probit 回归 

分位数回归 

OLS 回归 


logit 

sw cloglog 
sw cnreg 
sw glm 

logistic 
logit 
sw nbreg 
sw ologit 

oprobit 
sw poisson 
sw probit 
sw qreg 
sw regress 


K 








S 






18 7 4 3 4 
6 2 7 9 7 1 
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COX 比例风险模型回归 

参数生存时间模型回归 

tobit 回归 

键人 help sw 可获得关于逐步法选项的细节和 原理。 


sw stcox 


sw streg 
sw tobit 


多项式同炽 


在本章前面，图和图 6.2 显示了平均 SAT 综合成绩( csa t) 与高年级高中学生 
参加测试比例 (percent) 之间存在明显的曲线关系。图则显示了在 percent 取值 
较大时 SAT 成绩转向升高，将其视为东北部州特有的情况。那个交互项模型拟合的相当 
不错（圮= 0.832 7) 0 但是后面的图 6 . 9 所显示的交互项模型的残差对预测值的作图 
仍然显示出存在一些问题。残差在高预测值和低预测值两头都显示出增加的趋势。 

.quietly regres 
, rvfplot, yline(0) 


reg2 percent reg2perc 


csa 


8 


m 


■ 3 


Fitted values 


1000 


1050 


第 8 章介绍了多种处理曲线和非线性回归的技术。这里， 


曲线回归” 

linear regression) 指的是那些包括了对 y 变量或者 x 变量的非线性转换、 

但本质上仍是 0 LS 的回归（例如， regress )。 虽然曲线回归根据原始数据进行了曲线 

模型的拟合，但模型对转换变量还是线性关系。（在第8章中也讨论了另一些非线性回 
归，是应用非最小二乘法来拟合不能通过转换达到线性化的模 型）。 

有一种被称为多项式回归 （polynomial regression ) 的简单非线性回归，通常 

能够成功拟合 U 形曲线或者倒 U 形曲线。它的自变量同时包括一个独立的变量以及它 

的平方项（如果有必要，还可以包括更高次的项）。因为 csat 与 percent 的关系显示 

出某种 U 形特征，所以我们创建一个新变量，并使其等于 percent 的平方，然后把 
percent 和 percent 2 都作为 csat 的预测变量。图 6.10 描绘了其结果曲线。 


curvi 


generate percent 2 = percent^2 

csat percent percent2 


regre 





图 6.10 


8 




quietly regre csat percent percent2 
rvfplot f yline(0) 


♦ 争 


♦ 


♦ 


O 


% 


0 


20 


40 


0 


0 


% HS graduates taking SAT 


如果我们仅仅想看到这张图，并不需要回归分析，还有一种达到这一目的更快捷的 
办法。命令 graph twoway qfit 可以拟合一个二次多项式回归模型； gfitci 还可以 
画出其置信区间带。例如 ，一 条和图 6.10 相似的曲线可以通过键入以下命令 得到： 


graph twoway qfit csat percent 

scatter csat percent 


图 6.10 中的多项式模型拟合数据的情况比起图 6.6 中的交互项模型要稍微好一点 

0.859 1相对于 0.832 7 )。因为曲线拟合状况在残差对预测值的标绘图 
(图 6.11 ) 中显得不那么显著，因此采用多项式模型后关于独立同分布误差的通常假定 
也就显得更容易接受。 


2 


(R 




a 


_ predict yhat2 

(option xb assumed; fitted values) 


graph twoway mspline yhat2 percent, bands(50) 

catter csat percent 

,legend(of£) ytitie( n Mean compo ite SAT 


f! 


core 


^ 95% Conf. Interval 1 


P> I t 


Std, Err 


Coef 


csat 


蠡 


-4.76177 
0665072 

1084.591 


-7 _ 462216 
0326566 
1047.252 


0 _ 000 
0.000 
0.000 


-9.10 

5.89 

114.80 


6715406 

0084179 
9*285379 


-6.111993 
0495819 
1065.921 


percent [ 
percent2 

cons 


■ 




_ 


鑫 


■ 
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51 


Number of obs 

F ( 2, 

Prob > F 
R-squared 
Adj R-squared 
Root MSE 


df 


MS 


ss 


Source 




153*48 
0.0000 
0,8648 
0.8591 
25.122 


48) 


2 96860.9146 

48 631.097513 


Model I 193721.829 
Residual I 30292-6806 




50 4480.2902 


224014-51 


Total 


a 




I 


006 


1VS 袭 w odEOO UB9 5 
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图 6 .11 


850 


900 


950 


1000 


1050 


Fitted values 


在图 6 . 7 和图 6.10 中，我们对 SAT 成绩在学生参加率较高水平时的上扬现象就有 

了两种可选模型。这时，统计学的证据似乎更倾向于多项式模型。但对严肃的研究来 

说，我们在两个拟合情况相似的模型之间进行选择的时候，应该同时考虑实际意义和统 

计意义。哪一个模型看起来更有用，或者更有意义？如果只有一个，哪一个回归模型对 

测试分在学生参加率较高取值时的上扬问题提出了更有实际意义的解释或者和真实情 
况更为一致？ 

虽然多项式回归更好地拟合了数据，但它也有重要的统计上的弱点。不同幂次的 x 
项互相之间可能高度相关，从而导致多元共线性。此外，多项式回归比较倾向于追随那 
些 X 取值特大或特小的异常案例，因此 一 小部分数据点便可以对结果施加不成比例的影 
响。因为这两个原因，多项式回归的结果有时候会因样本而异，对某个数据拟合得很好 
但对其他数据则很糟糕。第 7 章将再次讨论这个例子，并用一些工具检查潜在的问题。 


面板教据 


面板数据 （panel data ) 也叫做横剖时间序列 （ 
series ) 数据，它由对 i 个分析单位或案例在 t 个时间点上的观测值组成。《纵向/面 
板数据参考手册》描述了这种数据的各种分析方法。大多数相关的 Stata 命令都以字 
母 xt 开头; 键人 help xt 可以得到概览。正如这一文件所说，某些 xt 程序要求时间序 
列数据或者 tsset 数据; 要得到关于这一步骤的更多信息，参见第13章或者键入 help 


cross - sectional time 


tsset 


这一节考虑用命令 xtreg 来完成对面板数据做相对简单的线性回归。我们的示例 

dta 包含加拿大纽芬兰省10个普查区的数据 （ Avalon 半岛 、: Burin 半 
岛和其他8个地方），时间从1992年到1996年。 

图 6 .1 2 将面板数据可视化，画岀了其中9个普查区中每年报告的犯罪数量变动。 

第1个普查区是 Avalon 半岛，它是目前纽芬兰省最大的一个普查区。用命令 if 

=1 将其暂时放到一边会使得图 6 .1 2 中另外的9幅图更加易读。这一示例 

中的 imargin(l = 3 r = 3 ) 选项要求子图的左右边距宽度等于图形宽度的 3 % ，从而使 
子图之间比默认情况分得更开。 


数据 


newfdiv 


cendiv ! 



26.211 
21.039 
20.201 
19. 536 
21 .268 


6556 

644 9 
6907 


1992 

1993 

1994 

1995 

1996 


Avalon Peninsula 

Avalon Peninsula 
Avalon Peninsula 
Avalon Peninsula 
Avalon Peninsula 


I Avalon 
I Avalon 
I Avalon 
Avalon 
I Avalon 


Bu ri n 
Burin 

8, I Burin 

9 * I Burin 

10, I Burin 


6 


Burin Peninsula 
Burin Peninsula 
Burin Peninsula 
Burin Peninsula 
Burin Peninsula 


1992 

1993 

1994 

1995 

1996 


2 


3 


4 


5 


graph twoway connected tcrime year 

by( cmnd±v r ote (”" ）> titl ( n "> imargin(left= 

图 6 ,12 


cendiv 


right=3) 


麵_瞧___! 




CO 




O 


C4 




V4 


1992 1993 1994 1995 1996 1992 1993 1904 1 


数据中总共包含 50 个观察。但因为这50个观察只代表10个案例，关于 OLS 的通 
常假定和其他常规统计方法并不适用。因此，我们需要复杂的误差设置模型，以便允许 
观察单位上的扰动和单次观察的扰动同时存在。 

来考虑 y 对 X 和 w 这两个自变量的回归。 OLS 回归估计出回归系数 a、b 以及 c, 并 



di vname 


cendiv 


outmig 


t crime 


year 


pop 


unemp 


Sorted by: cendiv year 


list i 1/1 
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Contains data from C : \data\newfdiv■dta 

obs 


Newfoundland Census divisions 

{source : Statistics Canada) 

18 Jul 2005 10:28 


50 


vars 


2 250 {99. 9% of memory free) 


size 


ispl ay 
orma t 


value 

label 


storage 

variable name type 


variable 1abel 


Census Division 
Census Division name 
Year 

Population, 1000s 

Total unemployment , 1000s 

Out-migration 

Total crimes reported, 1000s 


cd 


byte %9 * Og 

str20 %2 0s 

int % 9 * Og 

double % 9 -Og 

float % 9 . Og 

%9. Og 

float %9, Og 


cendiv 

divname 

year 

pop 

unemp 

outmig 
ter ime 


6 3 15 8 

5 2 8 3 6 


8 2 4 9 8 
5 5 4 3 3 


7 3 6 6 3 

8 8 9 4 2 

5 0 2 5 7 

- **« ■ 

9 19 7 5 
5 6 5 5 5 

2 2 2 2 2 


3 3 4 3 3 
0 5 9 6 2 

9 9 _ o 9 


t — f 


11 


2 I~i 


4-8 4- 

7 2 8 

8 9 8 


5 8 12 1 
* 1 4 1 8 


9 


9 8 7 6 


5 17 8 6 

6 12 9 2 

8 6 3 8 1 


9 9 9 8 8 
2 2 2 2 2 
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计算出相应的标准误和检验值，这里假设模型具有如下形式 


+ bx ； + cw ： + 


Ji 


a 


e ： 


这里，假定每一观察的残差6』代表了独立同分布下的误差。独立同分布（简标为 
i . i . d .) 误差假定对于由观察单位的重复测量所组成的面板数据显得不大可能。 

一种更为可行的面板数据模型包括两个误差项。一个是对第 i 个单位来说是共同 
的，但是在不同单位之间是不同的 （ uj 。 第二个则对每一对象 i 在时间 t 的观察来说 
都是独特的 （ e it )。 


+ bx it 

为了拟合这样一个模型， Stata 需要知道哪一个变量标志第 i 个单位，以及哪一个 

变量是时间标志 t 。这些可以在一条 xt 命令中来实现，或者说是更有效率地将数据作 
为一个整体。命令 iis (意为是”）和 tis(“t 是”）分别指定 i 变量和 t 变量。对 

newfdiv.dta 来说，单位是普查区（ cendiv ) ，时间指标则是 year 。 


+ cw：. + u ： + e ： 


Ju 


a 




U 


cendiv 


0.1 


tis year 
ave f replace 




保存数据将保留对 i 和 t 的指定。因此， iis 和 tis 命令在今后的分析中就不需 
要再重复。设置完这些变量后，我们现在可以拟合一个 tcrime 对 unemp 和 pop 进行 
回归的随机效应（这意味着共同误差 A 被假定为可变的而不是固定的）模型。 


xtreg tcrime unemp pop, 


Random-effects GLS regression 
Group variable (i): cendiv 


Number of obs 
Number of groups 


50 


10 


R-sq: within 

between 

overall 


0 _ 5265 

0.9717 
0 . 9634 


Obs per group : min 

avg 

max 


5 




5.0 




5 




Random effects u_i 
corr(u i , X) 


Gaussian 
0 (assumed) 


Wald chi2(2) 
Prob > chi2 


705.54 

0,0000 




tcrime 


Coef 


Std. Err 


P> I z 


[ 95% Conf, Interval] 


2 


_ 


unemp 

pop I 

cons t 


1645266 

0558997 

7264381 


0381813 
0073437 
301522 


4.31 

7.61 

-2 . 41 


0-000 

0.000 

0.016 


0896925 
0415062 
-1,31741 


2393607 

0702931 

1354659 


* 




拳 


■ 


* 


_ 




辛 




* 




* 


■ 


sigma_u | 
sigma_e J 

rho I 


34458437 

42064667 

40157462 


■ 


* 


(fraction of 


due to u i) 


variance 


* 


xtreg 输岀表包含和 OLS 回归相似的回归系数、标准误、 t 检验和置信区间。在这 
个示例中，我们看到 unemp 的系数 (0 .164 5 ) 为正值并且统计性显著。如果人口保持不 
变，每增加一个失业者，犯罪的预测数增加 0.164 5次。如果保持失业人数不变，人口数 
每增加100,预测的犯罪数增加5 . S 9 次。与单个系数的 z 检验相呼应，右上角中的 

Wald 卡方检验= 705.54 ,df = 2, P < 0.000 05 ) 允许我们拒绝关于凹 emp 和 

pop 的系数都等于0的联合虚无假设。 

输出表还给出关于两个误差项的进一步信息。在表的左下部，我们 发现： 

即公共残差1^的标准差 

即独特残差 ej ； 的标准差 


si gma_u 


sigma_e 
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由于单位之间差别（即10个纽芬兰普查区之间的差异）占未解释方差的 


rho 


比例 


Var[^J/( Var[^-] + Var[e tV ]) 

表的左上部给出了三个统计量。这些统计量的定义不同于 OLS 中的真实 
。在 xtreg 情况下，“ ”是基于几种 y 的观察值和预测值之间的拟合情况来计 


算的 


单位内解释的变化比例-定义为 y it 值与单位平均数 （ unit 

means) 的离差 （h 


within 


) 与预测值和单位平均预测值的离差 


( y it - y ,) 之间相关系数的平方。 

单位间解释的变化比例——定义为单位平均数（么）与从自变量 

预测的单位平均值 ( A ) 之间相关系数的平方。 

总的解释的变化比例——定义为观察值 ( y it ) 和预测值 （/ it ) 之间 
相关的平方。 

我们的示例模型在拟合总的犯罪观察情况时做的很好 （ i ? 2 = 0.96)，并且在普查区平均 
数的变化方面也做得很好 （# = 0.97)。但是，对普查区内部变化的预测能力较弱（只 2 = 

0 .53)。 


between 


overall 


这一示例中的随机效应选项只是以下几种可能选择中的一种。 

一 般化最小二乘法 (GLS) 的随机效应 （ random-ef f ects) 估计 ( 默认） 
单位间 （ between) 回归估计 

固定效应（ fixed-effects) (单位内）回归估计 
最大似然法的随机效应估计 

总体平均 （ popul at ion-aver aged) 估计 

更多的选项和命令语法请查询 help xtreg 命令。《纵向/面板数据参考手册》也给出 
了示例、参考文献和更多的技术细节。 


b 


mle 


isE 


回归诊断 


数据给了我们不信任所得分析结果的理由吗？我们能够找到更好的方式来设定模 

型或估计其参数吗？细致的诊断 （ diagnostics) 工作，检查潜在 的问题 和评价 关键假 
定的合理性，构成了现代数据分析中至关重要的步骤。我们拟合一个初始模型，然后仔 
细查看结果中可能存在问题的迹象或模型需要改进的方面。前面各章所介绍的诸如散 
点图、箱线图、正态性检验或者只是排序和列出数据等很多这种一般性方法都有助于发 
现并修正所存在的问题。 Stata 也提供了一套专门为此目的而设计的诊断技术工具箱。 

自相关作为常常使时间序列数据回归变复杂的因素并未在本章中 涉及。 第 13 章的 
时间序列分析对包括 Durbin-Watson 检验、自相关图、滞后运算和时间序列回归技术 
等 Stata 的时间序列分析程序库作了介绍。 

回归诊断程序可在下面一些菜单选项下 找到： 


Statistics-Linear regression and related-Regression diagnostics 

回归诊断 


Statistics-Post-estimation-Predictions, residuals ， 


etc 


取得预测值、残差等 


命令示范 


本节例举说明的一些命令都假定读者已经先使用 

anova 


拟合得到了 

一个模型。命令的结果就是指该模堕。这些后续命令 （followup co _ and S ) 有 
基本类型： 


regress 


种 


1•选项 Predict 用于创建包含预测值、残差、标准误和影响统计量（ 

influence 

statistics) 等案例统计量信息的新变量。第 6 章曾提到过一些主要的选项。请键人 

help regress 查看完整的清单。 

对诸如自相关、异方差性、设定错误或方差膨胀 （ 多元共线性）等统计问题进行诊 
断检査。请键人 help regdiag 查看清单。 

3 •画出 诊断标绘图，诸如附加变量或杠杆作用图、残差对拟合 值图残 差对自变量图 
以及成分对残差图等。同样，请键入 help regdiag 取得回归和方差分析诊断图形的完 

整清单。对分布形状和正态性进行诊断的一般性作图在第2章中就已经介 绍过; 请键人 

help diagplots 查看那些命令的清单。 


2 


命令 predict 的选项 
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predict nBW r cook 

创建一个取值等于 cook 的距离 （ Cook’s distance )!? 统计量的新变量，概要描 

述每个观测案例在多大程度上影响着拟合模型。 

.predict 

创建一个取值等于 Belsley 、 Kuh 和 Welsch 提出的 cm ^ ATJO 统计量的新变 

量。 COVKATJO 统计量测量第 i 个案例对估计系数的方差协方差矩阵的影响。 

• predict DFxl 9 d£beta (xl ) 

创建 一个取值等于 DFBETA 案例统计量的变量，这里的 DFBETA 测量的是每个观测 

案例对预测变量 xl 的系数产生多大影响。用命令 dfbeta 可以更方便地完成同样的事 
情，对于本例，它会自动将作为结果的统计量命名为 DFxl : 

.dfbeta xl 

要想对模型中所有预测变量创建完整的一套 DFSSTA ， 简单键入 dfbeta 即可，无需 

任何说明。 

.predict new, dfits 

创建 DFITS 案例统计量，该统计量也是概要描述每个观测案例对拟合模型的影响 

(类似于 Cook 的距离 D 和 Welsch 的 W 统计量）。 

诊断 检验： 

.dwstat 

计算一阶自相关的 Durbin - Watson 检验。第13章给出这一命令和其他时间序列 
程序示例。还 可见： 

help durbina 

help bgodfrey Breusch-Godfrey 的 LM 统计量（拉格朗日乘数， Lagrange 

multiplier) 

• hettest 

执行 Cook 和 Weisberg 的异方差性检验。如果我们有理由怀疑异方差分布是特 
定预测变量 xl 的函数，我们可以通过键人 hettest xi 把焦点集中在该预测变量上。 

• ovtest, 

执行对遗漏变量的 Ramsey 回归设定错误检验 （ RESET ) 。选项 rhs 要求使用右侧 
变量的幂，而不是按预测值 y 的幂（默认）。 


covratio 


new 


的 h 统计量 


Durbin-Watson 


h 


vif 


计算用于检验多元共线性的方差膨胀因子 ( 


factors ) 


inflation 


variance 


诊断标绘图 


acprploi: xl f mspline 


opts(bands(7)) 

在对非线性关系进行检查时，建构一幅扩展分量加残差标绘图 （augmented 

h 

component - plus-residual plot ， 也称作扩展偏残差标绘图）常常比 cprplot (分 
量加残差图）更佳。选项 mspline msopts ( bands ( 7 )) 要求用线段 （line 
segments ) 将七个垂直波段的交叉中位数连接起来。作为替代，我们可以通过选项 
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lowless lsopts(bwidth( . 5 ) ) 要求一条波段宽度为0 _ 5 的 lowess 修勻曲线。 

avplot xl 


建构一 "幅附 加变量标绘图 ( 


plot ， 也称作偏回归或杠杆作用 
图），显示按其他 X 变量来调整的 y 和 XI 之间的关系。此类标绘图有助于发现特异值和 
影响案例。 


added-van able 


avplots 

根据最近的 
在一幅图中。 

.cprplot xl 

建构一幅分量加残差的标绘图 （component -plus -residual plot ，也称作偏残 

差标绘图），显示 y 和预测变量 xl 之间调整的关系。此类标绘图有助于检查数据的非线 
性关系 

lvr2plot 

建构一幅杠杆作用对残差平方的标绘图 （ leverage - 
residual plot ，也称作 L - R 标绘图） 

rvfplot 


或 regress 结果，画出所有的附加变量标绘图，并将它们显示 


anova 


o 


squared ™ 


versus - 


o 


_ 出残差对 y 拟合 （ 预测）值的标绘图 （the residuals 


versus the fitted 


of y ) o 


values 


rvpplot xl 


画出预测变量 xl 每一取值上的残差。 


SAT 分教的重軒两歧 


诊断技术一直被当作“回归批评”工具，因为它们有助于我们对回归模型存在的可能 
不足和可以改进的方面进行检查。本着这一精神，我们现在重新回到第6章中美国各州 
学术能力测验 （ SAT ) 的回归。 一 个包含三个预测变量的模型解释了州平均 SAT 分数方 

差的大约92% 

( percent 的平方）和 hi 油（成人中取得高中文凭的比例） 


预测变量包括 percent (参加测试的高中毕业生的比例) 


percen t 2 


o 


o 


generate percent2 = percent A 2 
regress csat percent percent2 high 

Source [ 


SS 


df 


MS 


Number of obs 

F ( 3, 

Prob > F 
R^squared 
Adj R-squared 

Root MSE 


51 


47) 


193 _ 37 
0.0000 
0.9251 
0.9203 
18.90 




Model 

Residual | 


207225.103 
16789.4069 


3 69075,0343 

47 357.221424 




Total [ 


224014.51 


50 4480.2902 


csat 


Coef 


Std. Err 


t 


P> I t I 


[95% Conf. Interval] 


+ 一 


percent | 

percent2 | 

high I 

cons I 


-6,520312 

.0536555 
2,986509 
844.8207 


5095805 
0063678 
4857502 
36.63387 


-12 * 80 

8.43 

6,15 
23 # 06 


0,000 
0.000 
0,000 
0 • 000 


-1• 545455 
-0408452 
2.009305 
771 • 1228 


-5_ 495168 
0664658 
3,963712 
918.5185 


■ 




■ 
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回归方程为 

预测值 

图 7.1 中的散点图矩阵描述了这四个变量之间的相互关系。如第 6 章所提到的那 

样，平方项 P ercent 2 为我们的回归模型拟合 csat 和 percent 之间可见的曲线关系 

提供了可能。 


= 844.82 - 6 . 52 percent + 0.05 percerit 2 + 2 . 99 high 


csat 


mbol(+) 


graph matrix percent percent2 high csat r half 


图 7.1 


mm 




/ 








% 


80 






X ^ 


70 












% ^ 




: V 




900 


70 


1OO0 


eo 




哪 TIM 照 


50 


数个回归后续假设检验可对模型设定 （model specification ) 进行检查。遗漏 

变量检验（ omitted variables test ) ovtest 本质上是 y 对 x 变量以及 y 预测值 

(先将 y 进行标准化使其均值为0和方差为1 ) 的二次幂、三次幂和四次幂进行回归。然 
后对所有三个 y 的幂的系数等于零的虚无假设进行 F 检验。如果我们拒绝该虚无假设， 
那么进一步纳人多项式项来改进模型。就 csat 回归而言，我们不必拒绝虚无假设。 


ovtest 


Ramsey RESET test using powers of the fitted values of csat 

model has no omitted variables 

F(3, 44) 

Prob > F 


Ho: 


1*48 

0*2319 


m ■■ 


异方差性检验 （heteroskedasticity test ) hettest 通过检查标准化残差的 

平方是否与 V 存在线性相关来检查误差方差相等的假定（参见 Cook 和 Weisberg 
(1994) 的讨论与示例）。就 csat 回归的结果而言，我们应该拒绝相同方差的虚无 


假设 


hettest 


Cook-Weisberg test for heteroskedasticxty using fitted values of csat 

Ho: Constant variance 

chi2 (1) 

Prob > chi2 


4.86 

0,0274 


“显著的”异方差性意味着我们的标准误和假设检验可能是无效的。下一节中的图 7.2 
显示了为什么会出现这一结果。 
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诊斩括给图 


第 6 章已示范过在运行 regress 之后用后续命令 predict 创建新变量来保存残 
差和预测值。为了取得我们就 csat 对 percent: 、 percent:2 和 high 进行回归所得的 

这些取值，我们键人两条 命令： 

• predict yhat3 

.predict e3 f 

通过键人 graph twoway scatter e3 yhat，yline (0 ), 名为 e3 ( 残差）和 

(预测值）的新变量可显示在残差对预测值的标绘图中。命令 rvfplot (残差对 

预测值， residual 

包含位于0值处（残差平均数）的水平线，这有助于我们查看此类标绘图 

rvfplot f yline(0) 


resi 


fitted ) 只用简单的一步也可得到此类标绘图。图 7 . 2 中 


- versus - 


o 






T3o 


Fitted vaiiyes 


图 7 _ 2 显示了残差围绕在 0 周围对称地分布（对称意味着与正态误差假定相一致）， 

并且没有证据表明存在特异值或曲线关系。但是，残差的离散度对于超过平均水平的 

预测值的情形似乎略微更大，这就是为什么前面的 hettest 会拒绝等方差的假设的原 
因所在。 


y 


残差对拟合值的标绘图只是一种对回归残差的图形概观。为了更详细的研究，我们 

可通过一系列“残差对预测变量”的命令分别画出残差 对每一 预测变量的标绘图。为 
了画出残差对预测变量 high 的标绘图（未显示），请键人： 

- rvpplot high 

第 3 章中描述过的单变量图形也可应用于残差分析。比如，我们可以使用箱线图来 
査看残差体现的特异值或偏态问题，或者使用分位正态标绘图对正态误差假定进行 


评价 


附加变量标绘图 （ added-variable plots ) 是极有价值的诊断工具，它有好几种 
不同的名称，包括偏回归杠杆作用标绘图 （partial 

plots ) 、调整的偏残差标绘图 （ adjusted partial 


leverage 
residual plots ) 或者调整的变 


一 regression 
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量标绘图 （adjusted variable plots )。 它们描绘了对其他 x 变量效应进行调整基 

础上的 y 和某个 x 变量之间的关系。如果我们就 y 对 W 和^3进行回归，并同样就 xi 
对 W 和 x 3 进行回归，然后取得每一回归的残差并且在一幅散点图中画出这些残差，我 
们将得到对 w 和 x 3 进行调整基础上的 y 和 xi 之间关系的附加变量标绘图。命令 
avplot 会自动执行必要的计算。比如，我们可以画出预测变量 high 的调整变量标绘 

图，仅仅需要 键入： 

• avplot high 

_ 

为了进一步加快处理过程，我们可以键人 avplots 以获得一组完整的上述回归中 
每一预测变量的附加变量标绘图。图显示了就 csat 对 percent 、_ percent 2 和 

hi 如进行回归所得的结果。附加变量标绘图中的直线具有和对应的偏回归系数相等的 
斜率。比如，图 7.3 左下图直线的斜率等于2.99,它就是 high 的系数。 


avplots 


图 7.3 


-10 


9( percent (X) 


00636777,1 *8.43 


ooef ^ -6:5203116, se* .50958045, t 


-12 8 


e( 


,Sd • 48373023, t ■ 6-15 


附加变量标绘图有助于发现对回归模型具有不等比例影响的观测案例。在只有一 

个 X 变量的简单回归中，常规的散点图足以达到这一目的。但是在多元回归中，这种影 

响的迹象变得更为复杂。在数个 X 变量上具有异常取值组合的一个观测案例可能具有 

很高的杠杆作用，即更可能对回归造成影响，尽管其单独的 X 的取值本身并不太异常。 

高杠杆作用的观测案例在附加变量标绘图中显示为在水平方向上远离其他数据的点。 

但是，我们并没有在图7 .3 中看到此类问题。 

如果存在特异值的话，我们可以在附加变量标绘图中的观测案例标志上再添加标签 

来识别它们是哪些观测案例。正如散点图一样，这可以使用 mlabel () 选项来实现。图 

7.4 示范了以州的名称（即字符串变量 state 的取值）作为标签。尽管这些标签在数据 

点分布密集的地方相互重叠,但是个别的特异值仍然能被看出。 

由 cprplot xl 格式的命令生成的分量加残差标绘图 （ component - plus - 

residual plots ) 采取另一种方式对多元回归进行作图。变量 xi 的分量加残差标绘 

图画岀了在 xl 的取值上每一观测案例的残差及其基于 xl 进行预测的分量， 


e ； + b.xl ； 
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avplot high, mlabel (state) 


图 7.4 
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此类标绘图可能有助于检验非线性关系并暗示替代的函数形式。扩展分量加残差标绘 

图 （augmented component - plus-residual plot ) ( Mallows , 1986) 要更好些, 

尽管两种类型常常似乎都是非决定性的。图 *7.5 展示了 csat 对 percent 、 P erce 加2 
和 high 进行回归的扩展分量加残差标绘图。 

• acprplot h±gh f lowess 


S 


(Q 




is 




5 




% over 25 w/HS diploma 


图 7 . 5 中的直线对应着回归模型。曲线是基于 0.5 的默认波段宽度或一半数据所进 
行的 lowess 修勻。 曲线在右端的下降可作为一种 lowess 假象而忽略它，因为在接近 

右端时只有少量案例决定其位置（参见第8章）。如果 lowess 曲线在靠近中部的地方 
显示出系统地偏离线性回归模型的弯曲模式，那么我们将有理由怀疑模型的适当性。但 

是，图 7 .5中分量加残差中位数 （ component-plus 

模型。于是，该图增强了前面我们根据图 7 .2所得到的结论，即当前的回归模型充分解 
释了原始数据中所有可见的非线性关系（图 7 .1),残差中没留下什么明显的非线性关系 


-residuals medians ) 紧靠回归 


迹象 




i mi 


7 回归诊断 


正如其名称所意味的那样，杠杆作用对残差平方的标绘图 （ leverage-versus- 

squared-residuals plot) 以杠杆作用 （ 即帽子矩阵对角线元素， hat 

diagonals ) 对残差的平方作图。图 7 .6展 ZK 了就 csat 回归的此种图。为了识别个别 
的特异值，我们以 state 的取值在标志上添加标签。选项 mlabsizeOedsmall ) 要求 

使用“中小 ” （medium small ) 字号，这比默认的“小”字号稍大 一 点。（其他选择的清 

单，请见 help testsizestyle ) 。 尽管州名中的大部分在图 7 . 6的左下角混杂在一 
起，但是少数特异值却得以凸显。 

lvr 2 plot , mlabel ( state ) mlabsxzfi ( medsmall ) 


matrix 


M 7.6 
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Normalised msidua) squared 


杠杆作用对残差平方标绘图中的直线标示了平均杠杆作用 （ 水平线 ） 和平均的残差 
平方（垂直线）。杠杆作用告诉我们，基于其 X 取值的特定组合 ，一 个观测案例有多大潜 
力对回归造成影响。 X 的极端取值或异常的组合会导致一个观测案例具有很大的杠杆 

作用。残差平方较大则表明一个观测案例的 y 值与回归模型预测值极为不同。尽管康 

_ 

涅狄格州、马萨诸塞州和密西西比州 （ Connecticut ， Massachusetts and 

Mississippi ) 具有最大的潜在杠杆作用，但是模型对它们的拟合相对较好。 （ 这未必 
是好事。有时候高杠杆作用案例施加了太大的影响以至于它们支配了回归，因此回归模 
型肯定对它们拟合得很好。然而，此例并不是这种情况）尽管爱荷华州和田纳西州 

(Iowa and Tennessee ) 拟合得不好，但是它们的潜在影响却很小。据分析显示，犹他 

州 （ Utah ) 是一个不但拟合得很差，而且还具有潜在影响的观测案例。我们可以仅列出 
该州来取得它的值。因为 state 是一个字符串变量，所以我们要用英文双引号将 

“ Utah ” 括起来。 


list csat yhat3 percent high e3 if 


"Utah 


tate 


high 


csat 


yhat 3 


percent 


85.1 


-36 - 71239 I 


1031 1067 _ 712 


犹他州的学生中只有5%参加了学术能力测验，同时该州成年人有 85.1% 为高中毕 
业。这是一种接近两个 X 变量极端值的异常组合，成为了该州杠杆作用的来源，并导致 
我们的模型预测出该州学生的平均 SAT 分数比实际平均分数高出 3 6.7 分。为了准确看 
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到这一观测案例产生了多大的影响，我们可以使用 Stata 的“不等于”限定条件丨=将 
Utah 案例排除后再重新进行回归。 


regress csat percent percent2 high if 

Source | 


t 


"Utah 


ss 


df 


MS 


Number of obs 
F ( 3, 

Prob > F 

R-squared 
Adj R-squared 

Root MSE 


50 


46) 


202.67 
0.0000 
0.9297 
0.9251 
18.186 


Model I 201097.423 
Residual | 15214.0968 


3 67032,4744 

46 330.741235 




Total I 216311.52 


49 4414.52082 


csat I 


Coef 


Std. Err - 


t 


P> I t 


[95% Conf. Interval] 


-6,778706 
0563562 
3,281765 
827.1159 


percent 
percents | 

high 
cons I 


5044217 

.0062509 

4865854 
36.17138 


-13-44 

9,02 

6 _ 74 
22.87 


0.000 

0.000 

0.000 

0.000 


-7.794054 
0437738 

2.302319 

754,3067 


^5 - 763357 
0689387 

4.26121 

899, 9252 


* 


■ 


* 


■ 




在样本规模等于 50 ( 而不是 5 1 ) 的回归中，由于我们删除了一条拟合差（ ill - fit ) 
的观测案例，所以所有三个系数略微加强。但是，大体结论并未变化。 

Chambers 等 （ I 983 ) 以及 Cook 和 Weisberg ( I 994 ) 提供了数据分析的诊断标 

绘图和其他图形方法的更具体的例子和解释。 


修斩棄例晚计量 


在运行 


或 


后，我们可以通过 predict 命令获得多种诊断统计量 
(参见第 6 章或键入 help regress) 。 由 predict 创建的变量为案例统计量 （ 

statistics ) ，意味着它们对于数据中的每一观测案例都有数值。诊断工作通常从计 
算预测值和残差开始。 


regress 


anova 


case 


其他 predict 得到的统计量之间在目的上有一些重叠的地方。许多统计量都试图 
对每一观测案例在多大程度上影响回归结果进行测量。但是，“影响回归结 果”可 能指的 
是不同的事情，比如，对 y 的截距的影响、对特定斜率系数的影响、对所有斜率系数的影 
响或者是对估计标准误的影响。因此，我们有多种用于测量影响的案例统计量可供 


选用 


标准化和学生化残差 （standardized and studentized residuals ) 
(rstandard 和 rstudent ) 有助于识别残差中的特异值， g 卩一些特别背离回归模型的 

观测案例。学生化残差具有最为简单明了的解释。它们对应着 t 统计量，即要是在回归 

中纳人一个用1表示该条观测案例而用0表示所有其他观测案例的虚拟变量时所得到 

的 t 值。因此，它们检验的是某个特殊观测案例是否显著地改变了 y 的截距。 

帽子矩阵对角线元素 （hat 

响回归系数的潜力。当其 x 的取值（或取值的 组合） 异常时，观测案例会具有高的杠杆 


diagonals ) (hat) 测量了杠杆作用，表明影 


matrix 


作用 o 


几个其他的统计量测量了对系数的实际影响。 DFBETA 表明，如果将观测案例 i 从 

XI ，这可以通过 


回归中删除，那么 xl 的系数将变化多少个标准误。对于单个预测变量 
两种方式中的任意一种 得到： 或者通过选项 predict 的 dfbeta(xl ) 、或者通过命令 

dfbeta. 


与 DFBETA 不问， Cook 的 D 距离 （ cooked) 、Welsch 距离 （ welsch) 和 DFITS 指 
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标 (dfits) 都概要描述了观测案例 i 对整体回归模型产生了多大影响。换句话说，就是 
观测案例 i 对整套预测值产生了多大影响。 CO _ TTO 测量了第 i 个观测案例对估计 
标准误的影响。下面，我们对所有三个预测变量创建包括 DFBETA 在内的整套诊断统计 
量。请注意， predict 会自动地为其创建的变量添加标签，但是 dfbeta 不能做到这 

点。我们从重复最初的回归开始，以确保这些回归后续诊断参照的是恰当的 =51 ) 


模型 


o 


quietly regress csat percent percent2 high 
predict standard, rstandard 
predict student f 
predict h f hat 
predict D, cooksd 
predict DFITS, dfits 

welsch 


tudent 


r 


predict 

predict COVRATIO f covratio 


dfbeta 


DFbeta (percent) 
DFbeta (percent2) 
DFbeta (high) 


DFpercent : 

DFpercent2 : 

DFhigh : 


DFhxgh 


describe standard 


storage display 
variable name type format 


value 

label 


variable label 


Standardized residuals 
Studentized residuals 
Leverage 
Cook f s D 
Dfits 

Welsch distance 
Covratio 


float % 9.Og 

float % 9 , Og 
float % 9 , Og 
float % 9.0g 

%9 _ Og 

^9.0g 

%9 . Og 
%9 . Og 
%9 . Og 
%9.0g 


standard 

student 


h 


D 


float 

float 

float 

float 

float 

float 


DFITS 


W 


COVRATIO 
DFpercent 
DFpercent2 
DFhigh 


standard - DFhigh 


summary 


Obs 


Std- Dev 


Max 


Variable | 


Mean 


1,010579 _2.099976 

1.032723 -2 . 182423 

0373011 
0364003 
3064762 


2.233379 

2,336977 
2151227 

1860992 
7444486 


0031359 
00162 

• 0784314 

• 0219941 
0107348 


standard 

student 

h 


51 




* 


51 




p 


0336437 
0000135 
896658 


51 


# 


暴 


■ 


51 


D 




孕 


■ 


51 


DFITS 






_ 


* 


■ 


-6.854601 

7607449 
5067295 

. 440771 

6316988 


5.52468 
1.360136 
5269799 
4253958 

3414851 


- .089723 
1,092452 
000938 
-.0010659 
0012204 


2.278704 

1316834 

1498813 

1370372 
1747835 


51 


W 


51 


COVRATIO 
DFpercent 
DFpercent2 

DFhigh 


* 


51 




* 


■ 


* 


■ 


■51 


* 


51 






* 


蠡 






summarize 为我们显示了每个统计量的最小值和最大值，因此我们可以迅速检査 

是否有哪一个统计量大到足以引起我们的注意。比如，一些特殊表格可用于确定学生化 
残差 （ student ) 绝对值最大的观测案例是否构成一个显著的特异值。作为替代办法，我 
们也可以使用 Bonferroni 不等式和 t 分布表 :如果 绝对值 1 1 I^E a / n 水平显著，那么 
\student I 的最大值就会在 a 水平显著。本例中， I student I 的最大值等于2 .337 
( Iowa ， 即爱荷华州），并且 n 为51。由于爱荷华州在^ = 0. 05水平成为一个显著的特 
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异值（即导致截距显著变化），因此 t =2.337 必定在 0.05/51 水平显著 


display _ 05/51 

00098039 

在给定自由度 df =n - K -1 =51 -3 -1 =47的情况下， Stata 的 ttail( >函数可近 

似计算出 | t | >2 .337 的概率为 

ttail(47 , 




display 

02375138 


337) 




所得 P 值 （P = 0_0 23 S ) 没有低于 a/n = 0_ 000 98, 因此爱荷华州并不是在《 = 0. 05 水 
平显著的特异值。 


学生化残差测量了第 i 个观测案例对 y 的截距的影响。 Cook 的 D'DFITS 和 
Welsch 距离都测量了第 i 个观测案例对模型中所有系数（或者换句话说，对所有乃个 
y 预测值）的影响。为了列出由 Cook 的 D 测量出的5个具有最大影响的观测案例， 


键人 


sort D 

list state yhat3 D DFITS 


/I 


ifl 


state 
North Dakota 

Wyoming 

Tennessee 

Iowa 

Utah 


yhat 3 
1036.696 
1017.005 
974.6981 

1052.78 

1067-712 


D 


DFITS 

5493086 4 . 020527 

5820746 -4 ， 270465 

6992343 5 • 162398 

7444486 5 • 52468 

896658 -6.854601 


W 


47 


0705921 
0789454 
111718 

1265392 

1860992 


■ 


■ 


48 




4 




4 9 


9 




50 




督 


51 




聲 




选择条件 


_ 5 / 1 ( 注意是小写字母“1” ） 告诉 Stata 只列出从最后一个观测案例 

开始的倒数 5 个观测案例。图 7 .7展示了一种以图形方式显示影响的方 式：通 过使用 
“分析权数 "（analytical weight ) 选项 [ aweight = D] ， 残差对预测值标绘图中的 

记号大小将与 Cook 的 D 取值成比例。具有较大正负残差和较高 csat 预测值的五条观 
测案例凸显出来。 


graph twoway scatter e3 yhat3 [aweight 


】， msymbol(oh) yline(0) 

图 7.7 
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850 


900 


950 

•• ■ 


1000 


1050 


Fitted values 


尽管具有不同的统计原理，但是 Cook 的 D 、 Welsch 距离和 DFITS 具有密切联系。 

实践中它们往往将同样的观测案例标记为影响案例。图 7.8 以当前的例子展示了它们 


冋归诊断 I 〗81 


的相似之处。 


DFITS , half 


graph matrix 


图 7 』 


5 


0 


■5 


dfbeta 表明每一观测案例对每一回归系数有多大的影响。执行回归之后键人 

dfbeta 会自动对每一预测变量创建 DFBETA 0 在本例中，它们被命名为 DFpercent 

( 即对预测变量 percent 的 DFBETA ) 、 Diaper cent 2 和 DFMgh 。 图 7.9 采用箱线图画 

出了它们的分布。 

- graph box DFpercent DFpercent2 DFhxgh , legend(cols(3)) 

图 7*9 


DFpercent 


DFpercent2 


DFhigh 


从左到右，图 7 .9 依次显示了针对 percent、per cent 2 和 high 的 DFBETA 的分 

布。 （ 如果着色，我们就更容易区分它们。）每一幅图中的极端值都属于爱荷华州和犹他 

州 （ Iowa 和 Utah ) ，它们两者还具有最大的 Cook 的 D 值。比如，犹他州的 DFhigh = 

这告诉我们，犹他州会导致 high 的回归系数比排除该案例时低 0.63 个标准 


-0.63 

误。类似地 ， DFpercent =0.53 表明，在犹他州存在的情况下， percent 的回归系数比 

排除该案例时高0. 53 个标准误（因为 percent 的回归系数是负的,“更高”意味着更接 

近于0)。因此，犹他州弱化了 Mgh 和 percent 两者表面上的影响。 


o 
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了解特殊观测案例在多大程度上影响着一个回归的最直接的方式就是在排除那些 
观测案例的情况下重新进行回归。比如，我们可以排除所有造成各个系数半个标准误 

(即 DFBETA 的绝对值大于等于 0.5 ) 变化的那 些州： 


regress csat percent percent2 high if abs (DFpercent) < 

abs (DFhigh) < 


C 」 


abs{ DFpercent2) < 




Source 


df 


SS 


Number of obs 
F( 3, 

Prob > F 

R-squared 
Adj R-squared = 
Root MSE 


MS 


48 




44) 


215 • 47 
0.0000 
0.9363 
0.9319 

16.471 




Model I 175366.782 

Residual | 11937.1351 


3 58455.5939 

44 271.298525 




Total i 187303.917 


41 3985 _ 18972 




csat I 

percent 
percent2 | 

high 

cons j 


Coef 


Std. Err 


t 


P> I t I 


[95% Conf. Interval] 






-6■510868 
0538131 
3 * 35664 

815.0279 


4700719 
005779 
.4577103 
33.93199 


-13,85 
9.31 
7.33 
24.02 


0.000 
0.000 
0 _ 000 
0.000 


- 7.458235 

.0421664 
2 • 434186 
746,6424 


- 5.5635 
.0654599 

4.279095 
883.4133 


■ 


4 


_ 


仔细查看会发现这一回归表中（基于 n =48 ) 不同于前面所看到的 n =51 或 n =50 

表中对应部分。但是，我们的主要结论仍然没有改变，即平均的州 SAT 分数可很好地由 
高中毕业的成年人比例和参加测验的学生比例来非线性地预测。 

尽管诊断统计量将注意力放在具有很大影响的观测案例 （influential 
observations ) 上面，但是它们并没有回答我们是否应当排除那些观测案例的问题。 

那要求在仔细评估数据和研究背景的基础来作实际决定。本例中，我们没有任何实际理 
由去排除任何一个州，即使是其中具有最大影响的州也没有根本性地改变我们的结论。 

采用任何关于“特异值”的固定定义，我们都更可能在较大样本中发现更多的“特异 
值”。由于这个原因，依据样本规模调整的分界点 ( cutoff ) 有时被推荐用来识别异常案 

例。基于 n 个观测案例拟合一个具有 K 个系数(包含常数项）的回归模型之后，我们可以 
更密切地关注那些下列任何一个表达式为真的观测 案例： 

杠杆作用 

Cook 的 D 统计量 

DFITS 统计量 

的 W 距离 
统计量 

COVRAT 10 统计量 

这些分界点背后的原理和更一般的诊断统计量可以参见 Cook 和 Weisberg ( 1982 , 

1994)， Belsley、Kuh 和 Welsch (1980 ) 或者 Fox (1991) 。 


leverage h >2K/n 
Cook’s D >4 /n 


DFITS >2 y^K/n 

Welsch’ s IV >3/k 

>2 Afn 

\COVRATIO -1 I 彡 3K/n 


Welsch 


DFBETA 


DFBETA 


多无共线性 


如果预测变量之间存在完全多元共线性 （ multicollinearity ，即存在线性关 

系），回归方程就会无解。这时， Stata 会向用户提出警告然后以自动删除某个预测变量 

的方式对此进行处理。较高但不是完全的多元共线性的情况会导致更难以捉摸的问题。 

当我们加人一个与模型中已有 x 变量存在高度相关的新的 x 变量时，可能存在问题的征 
兆 如下： 
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7 回归珍断 


1. 标准误变得很大，而对应的 t 统计量却更小。 

2. 系数的数值和符号出乎意料的变化。 

3. R 2 虽然很大但回归系数却并不显著。 

多元回归试图估计每个 x 变量的独立影响。但是，如果 x 变量中的一个或更多个变 
量并不具有多少独立变异，那么能支持这样做的信息就很少。以上列出的征兆提示我 
们,系数估计会变得很不可靠，同时样本或模型中的细微变化就可能彻底改变这些系数 
估计值。要进一步解决问题就需要确定多元共线性是否真的成为了问题，如果是，又应 

当如何进行处理。 

检查变量之间的相关矩阵未必能够察觉或消除多元共线性。更好的办法是就每一 x 
对所有其他 X 变量进行回归。然后我们根据这一回归计算出 1 来查看第一个 X 变 
量的方差中与其他 X 变量独立的比例是多少。比如，的方差中有大约97%独立于 


percent 和 percents 


high percent percent2 


quietly regre 
display 1 - e 

96942331 

回归之后， e ( r 2 ) 保存着#的数值。类似的命令还显示 percent 方差只有4%独立于 

其他两个预测 变量： 




(r2) 


* 


quietly regress percent high percent2 

display 1 

04010307 


(r2) 


* 


这一有关 percent 和 percent 2 的结果并不令人惊讶。在多项式回归 
(polynomial regression ) 或包含交互项的回归中， 一 些 x 变量可能是直接根据其 

他 x 变量计算得到。尽管它们的关系严格地讲是非线性的，但是常常又是很接近于线性 
的，从而造成多元共线性问题。 

对于方差膨胀因子 （ 

似地进行自动计算。这能迅速对多元共线性作简捷的检查 


inflation factor ) ， 回归后续命令 vif 可以类 


variance 


percent percent2 high 


quietly regress 

vif 


csa 


l/VIF 


Variable | 


VIF 


24,94 

24,78 

1*03 


0,040103 

0.040354 
0.969423 


percent I 

percent2 

high I 


16,92 


Mean VIF 


位于 vif 输出表右边的 1/ VIF —列给出了 1 - R 2 的数值，它根据每一 x 对其他 x 

变量进行回归计算得到，这一点可将 Mgh (0.969 423 ) 或 percent (0.040 103 ) 的值 

与我们前面 display 的计算值一比较就能看岀。也就是说，1 / VIF (或1 - i ? 2 ) 告诉我 

们某个 x 变量的方差独立于所有其他 x 变量的比例是多少。要是比例小，比如， 
percent 和 percent 2 的0.0 4 ( 4 %的独立变异），就表明可能存在问题。一些分析人 

员对1 / VIF 的值设定了一个被称作容忍度（ tolerance ) 的最低水平，并自动排除那些 

低于他们的容忍度标准的预测变量。 

位于 vif 表中间的 VIF 列反映了由于该预测变量的纳入所带来的其他变量系数的 




1 . 0000 
0.9794 
0 . 1413 
-0.8758 


1 . 0000 
0.1176 
-0.7946 


1 *0000 
0.0858 


1.0000 


Cpercent 

Cpercent2 

percent 

percent2 

high 

csat 


1 _ 0000 
0.3791 
1 . 0000 
0 _9794 

0.1413 
一 0.3758 


如果需要予以解决时，一个被称作“对中 ”（ centering ) 的简单窍门常常可以成功 
地减少多项式或交互效应模型中的多元共线性。对中就是在创建多项式或乘积项之前 
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方差（及标准误）增加的程度。我们看到，实际上对其他变量没有影响，但是 

percent 和 percent 2 对对方方差的影响很大。 VIF 的值提供了系数方差增加的指 

示，但它并不是对系数方差增加的直接测量。下述命令通过显示 pe : rcent 2 在纳人和不 
纳人模型时 percent 系数的标准误估计值来直接展示了这一影响。 


quietly regress csat psrcBnt pBrcent2 high 

display _se [percent] 

50958046 ~ 

quietly regress csat percent high 
display se[percent] 

16162193 


_ 


当 percent 2 纳入模型时， percent 的标准误是未纳人 percent 2 时的 3 倍 

0.509 580 46 /0.161 621 93 


3.152 916 6 




这相当于系数方差上的10倍增加。 

方差膨胀多少才算太大？ Chatterjee . Hadi 和 Price ( 2 000) 建议用以下条件作 

为多元共线性存在的判断 标准： 

1. 最大的 VIF 大于10; 

2. 平均的 VIF 大于1。 

由于我们最大的 VIF 接近2 5 ,同时平均的 VIF 几乎达到了 17,因此 csat 回归明显地 

满足这两条标准。问题很棘手，还能做些什么呢，这就是下一个需要考虑的问题。 

因为 percent 和 percent 2 紧密相关，因此我们不能像单独估计任一预测变量的 
作用时那样精确地估计出它们的独立效应。这就是为什么当我们将 csat 对 percent 
和 high 的回归与 csat 对 percent 、 percent 2 和 high 的多项式回归比较时发现 

percent 系数的标准误增加了三倍的原因。尽管这有失精确，但是我们仍然可以将所 
有的系数与零区分开来。而且,多项式回归获得了一个更好的预测模型。考虑到这些原 
因，这一回归中的多元共线性未必引起了大问题，或者要求某种解决办法。我们可以简 
单地接受它,就如同其他可接受模型也会有自己的特征一样。 


percent 


summarx 


Variable | 


Obs 


Mean 


Std, Dev 


Min 


Max 


percent I 


35.76471 


51 


26.19281 


4 


81 


generate CpBirc&nt = percent 


(mean) 


generate Cpercent2 = Cpercent A 2 

Cp&raent Cperc&nt2 percent percent2 high 


correlat 

(obs=51) 


csa 


I Cpercent Cperce 〜 2 percent percent2 


high 


csat 


0 12 7 8 
0 9 8 12 
0 7 5 4 4 
0 3 5 0 0 
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7 回归诊断 


将 X 变量值减去其平均数。减去平均数导致创建的新变量以零为中心分布，并且该新变 
量与其值的平方项的相关会大大削弱。随后的回归的拟合优度与未对中的回归是一样 
的。通过减少多元共线性，对中常常孕华 } 得到更精确的系数估计值，即具有更 

小的标准误 D 下面的命令用于创建名 percent 的对中变量 Cpercent ，然后创建名为 

Cpercent 2 Cpercent 平方项。 

尽管 percent 和 percent 2 相互之间几乎完全相关 （r = 0.979 4 ) ，但是对中的 

Cpercent 和 Cpercent 2 却仅为中度相关 （r = 0.379 1)。另夕卜， percent 和 

Cpercent 的相关系数等于1，因为对中只是一种线性转换。但是，涉及 C _ perceiit 2 的 

相关系数与那些涉及 perceiit 2 的相关系数很不一样。图 7.10 展示的散点图有助于直 
接观察这些相关和转换效果。 


graph matrix Cpercent Cpercent2 percent percent2 high csat 

half msymbol{+) 


围 7,10 


msm 




mrnrnm 


aici] 


2 




1000 


10B 


觀纖纖論繃參 


■K 


50 






0 
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mm 
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20DQ 




wmmmm . 




eo 




70 




11 


% 


4 + x 


1000 












900 


* 




goo 


^0 


0 


500 


1000 2000 


SO 


100 2000 4000 600060 70 d0 $0 


对中之后，模型的 i ? 2 、整体 P 检验、预测和许多其他方面应当都未改变。最值得注意 
的差异在于对中变量的系数和标准误 


0 


regress csat Cpercent Cpercsnt2 high 


Source | 


df 


SS 


MS 


Number: of obs 
F ( 3, 

Prob > F 

R-squared 

Adj R-squared 

Root MSE 


51 


— h 


47) 


193,37 
0.0000 
0 * 9251 
0,9203 
18-90 




Model I 207225.103 
Residual | 16789.407 


3 69075.0343 

■ 

47 357.221426 








224014 * 51 


Total 


50 4480.2902 


csat I 


Coe f 


Std . Err* 


P> I t 


[95% Conf. Interval] 


t 


-2.682362 
.0536555 
2.986509 
680.2552 


Cpercent | 
Cpercent2 

high 

cons I 


- 111 9085 
. 0063678 
. 4357502 
37 . 82329 


-23.97 
8 . 43 
6 . 15 
17-99 


0 • 000 
0.000 

0-000 
0.000 


-2.907493 
0408452 
2.009305 
604,1646 


-2 • 457231 
.0664659 

3.963712 

756.3458 


■ 


在本例中，当 Cpercent 2 被纳入到模型时， Cpercent 系数的标准误实际上更低 
(0.111 90 8 5 对比 O.lSl 62 1 9；3〉。相应地， t 统计值更大。因此，看起来对中确实改 

善了系数估计值的精度。现在 VIF 表看起来问题不大了 ：与未对中回归时 percent 和 
percent 2 只有 4 %的独立变异相比，现在三个预测变量中的每一个都超过了 80% 


o 
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vif 


l/VIF 


Variable 


VIF 


0.831528 

0.846991 
0 - 969423 


1.20 
1.18 
1.03 


Cpe rcent | 

Cpercent2 | 

high I 


1,14 


Mean VIF I 


有时可用另一个检查多元共线性的诊断方法，就是检查估计系数 （ f # 变量）之间的 
相关矩阵。要得到该矩阵，可在 regress 、 anova 或其他模型拟合程序^£后 键入： 


correlate , coef 


Cpercent Cperce 〜 2 


cons 


1 . 0000 
-0.3893 

»0 . 1700 
0.2105 


Cpercent I 

Cpercent2 [ 

high I 
cons I 


1 . 0000 
0.1040 
-0 _ 2151 


1.0000 
-0.9912 


1 .0000 


系数对 (pairs of coefficients ) 之间的高度相关表明，可能存在共线性问题。 

通过加上选项 covariance ， 我们可以查看系数的方差协方差矩阵，标准误就是据 


此推出的 


correlate , 


coe 


covariance 


I Cpercent Cperce 〜 2 


cons 


012524 

000277 

009239 

891126 


Cpercent | 
Cpercent2 | 

high I 

cons I 


000041 

000322 .235953 

051817 -18.2105 1430 . 6 




* 


_ 






_ 




_ 








拟合曲线 


基础的回归和相关方法都假定存在线性关系 （linear relationships )。 在有限 

的取值范围内，线性模型提供了对许多真实现象的合理而简单的近似。但是分析人员也 

许会碰到线性近似过于简单的情况，这就需要非线性 （ nonlinear ) 的替代办法。本章 
描述了三种针对非线性或曲线（ curvilinear ) 关系进行建模的主要方法： 

1 •非参数方法 （nonparametric methods ) ，包括波段回归 （band regression ) 
和 lowess 修勻 （lowess smoothing ) 0 

2 .转换变量 （transformed variables ) 的线性回归（“曲线回归”），包括 Box - 
Cox 方法。 


3 •非线性回归 （nonlinear regression ) 


非参数回归适宜作为一种探索性工具，因为它能在不要求分析人员事先设定某一特 
殊模型的情况下直观地概要描述数据的模式。转换变量将诸如 OLS 回归 （ regress ) 等 

线性参数模型的用途扩展到包含曲线关系的情况。但是，非线性回归则属于另一种不同 

类别的方法，它可以对内在非线性模型 （intrinsically nonlinear models ) 的参 

数进行估计。 

下列菜单选择涵盖了本章讨论的大部分操作。最后的非线性回归主题则需要采用 
命令方式来做。 


绘制两维标绘图 


Graphics -Twoway graph( scatterplot, line ， etc •) 

Statistics-Nonparametric analysis-Lowess smoothing 进行 lowess 修勻 
Data-Create or change variables -Create new variable 


进行变量转换 
进行线性回归及有关分析 


Statistics-Linear regression and related 


命令示 tL 


1 x2 x3 f model(lhs) 


boxcox y 


假定 y ( A ) 是 xl 、 x 2 和 x 3 加上高斯等方差误差 （Gaussian constant -variance 

errors ) 的线性函数的情况下，找到一种适合于对 y 进行 Box - Cox 转换的参数 A 

( Jamjbda ) 的最大似然估计值 （ 

选项限定是对左手边 （ left - hand - side ) 的变量 y 做转换。其他选项可以限定根据相 

同或不同的参数对右手边的变量 （ x ) 进行转换，也可以对模型的更多细节加以控制。请 
键入 help boxcox 査看命令语法和选项的完整清单。《基础参考手册》提供了技术 


likelihood estimates ) 。 model (lhs) 


maximum - 


细节。 
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.graph twoway mband y x r bands(10) 

画出 y 对 x 的散点图，并用线段将 10 个等宽垂直波段内的交叉中位数 （ 
medians , 即点的中位数， y 的中位数 ）） 连接起来。这是“波段回归”的一种形式。 
键入 mspline 代替本命令中的 mband 将得到由修勻的立方样条曲线 （ smooth cubic 
spline curve ) 而不是线段连接起来的交叉中位数 （ 

bwidth(.4) 


catter 


y 


cross - 


graph twoway lowess y 


scatter 


y 


111 出 一 、条 lowess 修匀曲线 （ lowess -smoothed 


^ )， 并加上 y 对 x 的散点 

图。 lowess 计算采用0 波段宽度 （ bandwidth ) (即 4 0 %的数据）。为了计算修勻 

的数值并将其作为新变量保存下来，请使用相关的命令 lo Wess 。 


curve 


lowess 


y x f bwidth(.3) gen (newvar) 

在 y ■对 x 的散点图上采用 0. 3 波段宽度00%的数据）画出一条 lowess 修匀曲 
线。这条曲线的预测值被存成一个名为 ne 胃 ar 的变量。 lowess 命令提供了比 
graph twoway lowess 更多的选项，包括拟合方法和保存预测值的能力。详情请见 

help lowesso 

nl exp2 y x 


使用迭代非线性最小二乘法 （ iterative nonlinear least 
个 2 参数的指数增长模型 （exponential growth model ) ， 

预 测值： 


) 拟合一^ 


squares 


其中的 

模型，或者使用 Stata 提供的常见模型（包括指数、 logistic 和 Gompertz 等模型) 
在 nl 之后，使用 predict 能得到预测值或残差。 


指的是一个用于设定模型的单独程序。用户可以编一个程序来定义自己的 


xp 


1 log4 y 


init(B0=5, Bl=25, B2= 


1, B3=50) 

拟合一个 4 参数的 logistic 增长模型（ log4) ，其形式为 

预 测值： y = b 0 +^/(1 + exp ( - b 2 (x ~ b ,))) 

设定迭代估计过程的初始参数值为=5、扛=25、込=0 .1 和 ' =50 

regress Iny xl sqrtx2 


3 


a 




使用变量 lny 、 xl 、 sgrtW 和 invx 3 进行曲线回归。这些变量事先通过对原始变 
量 y 、 W 和 x 3 进行非线性转换得到，所用命令 如下： 


generate Iny = In(y) 

generate sqrtx2 = sqrt (x2) 
generate ±nvx3 = l/x3 


和本例中一样，当 y 变量被进行转换之后，由 predict yhat 得到的预测值或者由 

， resid 得到的残差也将具有被转换的单位 ( 

transformed units ) 0 出 

于制图或其他目的，我们可能想将预测值或残差返回到原始数据单位上，请使用取逆转 


predict 


换 （inverse transformations )，比如 


replace yhat = exp (yhat) 


missile , dta 中的变量包括 一种被 称作“圆概率误差” （ Circular Error 

Probable, CEP) 的准确性测量 （accuracy measure)。CEP 代表一个圆圈的半径，中 

心是导弹弹着点，50%的弹头都应当落在这个范围内。双方的科学家都致力于逐年改善 
导弹的准确性（图 8.1) 


o 


graph twoway mband CEP year, bands() 

scatter CEP year 

,ytitl ("Circular Error Probable 


)legend(off) 


il 


M 8*1 


C4 H # 令命 ♦ 


令 


1080 


1990 


1970 


1960 


Year of first depbyment 


图 8.1 显示 C £ P 随着时间推移而下降(准确性上升）。选项 bands (8) 设定 graph 
twoway mband 将散点图划分成8个等宽的垂直波段并使用线段将每一波段内的 （ 

中位数， y 中位数)点连接起来。这条曲线描绘了 CSP 的中位数如何随着年份 year 而 


X 


变化 



Sorted by: country year 


Missile 

US or Soviet missile? 

Year of first deployment 
ICBM or submarine-launched? 

Range in nautical miles 
Circular Error Probable (miles) 


s tr15 % 15s 

byte 


ile 
country 

year 

type 

range 

CEP 


miss 


%8 ， Og 

%3 . Og 

%8 . Og 

% 8 * 0 g 
%9 . Og 


soviet 


byte 

int 

float 


type 


value 
1 abel 


storage display 

format 


variable label 


variable name 


type 
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波段荀焯 


非参数回归方法通常不形成一个明确的回归方程。它们基本上是展亦 y 和 x 之间 
关系（可能是非线性的）的图形工具。 Stata 可以在任何散点图或散点图矩阵之上画岀 
波段回归这一简单的非参数回归类型。为了举例说明这点，考虑取自 

( 1990 ) 的清醒认识冷战的数据 Oissile . dta )。 观测案例是1 95 8 —1 9 90年期间由 

美国和（前）苏联在其军备竞赛过程中部署的 48 种远程核导弹： 


MacKenzie 


Contains data from C:\data\missile.dta 

obs 
vars 
size 


Missiles (MacKenzie 1990) 

■16 Jul 2005 14:57 


48 


6 


1 3 92 (99.9% of memory free} 






♦ 


♦ 


争 


魯 


令 
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^ 
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命 命 


♦ 
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參 
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命 


♦ 
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非参数回归并不要求分析人员事先设定关系的函数形式。相反，它允许我们以“开 
放的心态”对数据进行探索。这一过程常常会揭示出一些令人感兴趣的结果，比如，当我 

们分别观察美国和（前）苏联导弹准确性的变化趋势时（图8.2)。下述命令中的 
( 选项对每一个国家形成单独的标绘图，每幅图都将波段回归曲线和散点图叠 

并在一起。在 by( ) 选项内是控制图例 （ legend ) 和注释的子选项 （ suboptions )。 


y 


graph twoway mband CEP year, bands(8) 

|| scatter CEP year 

|| , ytitle("Circular Error Probable, miles” 

by(country, legend(off) note(” n )) 


图 8.2 




Year of first d 却 


图 8. 2 中两条曲线的形状大为不同。美国的导弹在 I 960 年代就已经比较准确，可 
以替换成更小的弹头。一个适合于先前只承载一个大弹头的同样大小的导弹可以装载 
二个或更多的小弹头。（前）苏联导弹的准确性改进得较慢，在1960 年代晚期到 
年代初期这段时期内明显地出现停滞，因此落后于美国对手大约10.年。为了弥补准确 
性上的不足，（前）苏联的策略侧重于装载高当量弹头的更大火箭。非参数回归能够辅助 
此类定性描述，或者作为拟合随后提到的那些参数模型的准备工作。 

我们可以通过图形叠并将 mband (或 mspline) 的波段回归曲线标绘图添加到任何 
散点图上。波段回归的简洁性使它成为一个便利的探索性工具，但是它还有一个值得注 
意的不足，即波段在 x 取值的不同区间都具有同样的宽度，尽管其中的一些波段包含很 
少的观测案例、甚至不包含观测案例。比如，对于服从正态分布的变量而言 ，数 据密度 
(data density ) 在接近极值时会下降。因此，波段回归曲线的左端点或者右端点（它 

们往往决定着曲线的外观)常常只反映少量数据点。下一节将描述一种更为成熟、计算 
密集型的方法。 


1970 


lowess 修匀 


IcweBB 和 graph twoway lowess 可实现一种被称作 lowess 修匀 （ locally 

weighted scatterplot smoothing 的缩写，即局部加权散点图修勻）的非参数回归 
形式。由于具有可对拟合过程的细节进行控制的选项， lowess 命令总的来说更为专业 
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也更为强大。 graph twoway lowess 具有简洁的优点，并遵循 graph twoway 这一'族 

命令的习惯语法。下面的例子使用 graph 

( country 二 0) 画岀对 year 的标绘图。 

如果我们改为键入以下命令，得到的图非常类似于图 

¥ bwidth (• 4> 

样，图 8.3 显示美国导弹准确性在1%0年代期间得到迅速改进，而在 
1970年代和1980年代则以更缓慢的速度发展着。这里得到了 CEP 的 lowess 修勻 

值，名为 IsCEP 

匀的样本比例 （ fraction of sample )。 默认设置是 bwidth ( . 8 ) 。 波段宽度越接近 

于1，修匀的程度越高。 


lowess 只对美国的导弹 


t 


y 


冰1 


8.2 


country == 


lowess CEP year i 


和图 8.2 




选项 bwidth( .4) 设定 lowess 的波段宽度，即用于对每一点进行修 


9 bwidth(.4) 


country 


graph twoway lowess CEP year 

|| scatter CEP year 

|| t legend(off) ytitle("Circular Error Probable f miles") 


x 


图 8.3 


N H ^ 參令争 


參黍 


ns. 

e 




争命 


m 


♦ 




春參 


O ， 


* 


命 


♦ 


1090 


1980 


1970 


1960 


Year of first deployment 


个观测案例的 lowess 预测（修匀） y 值由 n 个加权回归得到。设&表示波段总 
宽度的一半，并被平截成一个整数。对于每一 h ， 修匀值 y ? 通过只涉及那些位于从 i 二 

max ( 1, i - 欠)到 

加权函数 (tricube) ，这一区间内的第 J_ 个观测案例的权数为 

Wj - (I -\ 


n 


(i +； c ， …区间内的观测案例的加权回归得到。根据一个局部 


1 =mm 




u ： 


这里， 


一 ^)/A 


寸，权数等于1;但是 


△代表同一区间内\与其最远的观测案例之间的距离。当 
在区间的边界处，权数下降到零。有关 lowess 方法的更详细的讨论和举例请见 


X, =x. 


Chambers 等 （1983 ) 或 Cleveland(1993 ) 0 

lowess 选项包括以下这些： 

用于移动平均数法修匀 （ running-mean smoothing )。 默认选项为移 
动线最小二乘法修匀 （ running - line least squares smoothing) 0 
未加权的修匀 （unweighted smoothing) 0 默认选项为 Cleveland 

局部力口权函数 （tricube weighting function )。 


mean 


noweight 
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bwidth( ) 设定波段宽度。除了接近端点处采用更小的非对中的波段之外，约有 

个观测案例的对中子集 （ centered subsets ) 被用于修 
勻。默认选项为 bwidth( .8 ) 。 

将修勻值做 logit 转换。 


bwidth x n 


logit 

adjust 


调整修匀值的平均数，使其等于原始 y 变量的平 均数; 像 logit —样， 


adjust 对二分类的 y 很有用。 


gen(newvar) 创建包含 y 的修勻值的新变量。 

抑止图形显示。 

提供了一种将其他图形添加到已有图形中的办法;见 help 

option 。 

rplots( ) 改变参照线 （reference line ) 的 外观; 参见 help cline_options 
由于要求进行^个加权回归，所以 lowess 修勻在大样本情况下运行较慢。 

除了修勻散点图之外， lowess 也可用于探索性的时间序列修匀。文件 

包含取自格陵兰冰原 （ GISP 2 ) 项目的结果，对该项目的描述可见于 
Holdsworth 等 （ I 993 ) 和 Mayewski 、 Meeker 等 （ I 993 ) 。研究者们提取并用化学方 

法分析了代表超过100 000年气候史的冰芯。 ice . dta 还包含了一小部分这种 信息: 
测出的非海硫酸盐浓度 （ sulfate ) 和一个自公元1500年以来的“极地环流强度 

Intensity) ”指数 （ PCI ) Q 


nograph 

plot() 


addplot_ 


ice.dta 


Mayewski 


(Polar Circulat 


ion 


Contains data from C : \data\ice,dta 
obs : 

vars : 
size : 


271 


Greenland ice 

14 Jul 2005 14 : 57 


(Mayewski 1995) 


3 


5 962 (99• 9% of 


memory free) 


storage display 

type format 


value 

label 


variable 


name 


variable label 


year 

sulfate 

PCI 


% t y 


Year 


double %1 0 -Og 
double %6.Og 


SO4 ion concentration 

Polar Circulati 


ppb 

Intensity 


on 


Sorted by: 


year 


为了保留取自这 27 i 个点的时间序列的更多详情，我们采用只占样本 


- 5%的相对狭 

窄的波段宽度进行修匀，图 S _4 画出了这一结果。修匀曲线已被画得更粗以便从视觉上 

将其与原始数据区分开来（有关线条宽度的其他选择，请键人 help 
linewidthstyle) 0 

主要来自火山或燃烧诸如煤和石油等化石燃料的非海硫酸盐 （ so 4 ) 在被排人到大气 
中之后到达了格^兰冰原。不论是图 8 .4 中的修匀曲线还是原始曲线都传递出这一信 
息。修勻曲线显示出从 1500 年到 1 8 00 年代早期，平均数在摆动之中略有提升。 

年以后，化石燃料促使修匀曲线明显提高， I 929 年（大萧条）之后和年代^期 （混 

杂着1 97 0年美国清洁空气法案、1 97 3年阿拉伯石油禁运以及随后油价上涨等影响）出 

现了暂时性下降。原始数据中的大多数尖锋已被识另 ij 出是因为冰岛的 Hekla(1970 ) 或 
阿拉斯加的 Katmai ( l 9 l 2 ) 等世界著名火山的爆发。 ^ 


1900 


graph twoway lowess sulfAte 

II line sulfate 
II , ytitle("S04 

legend(label(1 "lowes 


year' bwidth(•05) clwidth(thick) 

year, clpattern(solid) 


ion concentration, ppb”) 

s smoothed") label(2 


"raw data 11 )) 






2000 


1900 


1800 


1700 


1600 


1500 


lowess smoothed 


raw data 



在对时间序列数据进行过修匀之后，分别对平滑序列和波动（残差）序列进行研究往 

往是很有用的。下述命令创建了两个新变量： lowess 修匀的硫酸盐取值 （ smooth ) 和 

原始数据减去修匀值计算出的残差或波动值 （ 。 


n (smooth) 


lowess sulfate year, bwidth(* 05) 
label variable smooth n S04 ion concentration (smoothed) 


smooth 


SUlfAtB 


gen 

label variable rou h ’’S04 ion concentration (rough) 


rou 




通过 text( ) 选项标注图形然后加以合并，图 8.5 以成对标绘图的形式对挪 ooth 
和 rough 两条时间序列进行了比较。 

graph twoway line smooth year, ylabel(0(50)ISO) xtitlo( n M ) 

ytitie ( "Smoothed”）text (20 1540 "Renaissance 11 ) 
text(20 1900 "Industrial! ation") 
text(90 1860 M Great Depre sion 1929") 

text (150 1935 ’’Oil Embargo 1973 ”） saving (fig08_05a f replace) 


ylabel (0 (50) 150) xtitl (”” 

orientation(vertical)) 


graph twoway line 

ytitle 《 "Rough ”） text(75 1630 ” Awn 1640 
text(120 1770 n Laki 1783", orientation(vertical)> 


.rou h year 


orientation(vertical)) 


text(90 1805 "Tambora 1815 
text(65 1902 "Katmai 1912 ”， orientation(vertical)) 

text(80 1960 M Hekla 1970 
yline(0) saving (figOB^OSb, replace) 


orientation(vertical)) 


graph combine flg08_05a. p fig0B^05b - p , rows(2) 


图 8.5 


Oil Embargo 1973 


t Depression 1929 


R 


S 




s 
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图 8-4 
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应用 STATA 做统计分析 


转换支量苟炽一 1 


通过对一个或更多变量作非线性转换，然后将转换变量纳入到线性回归中，我们就 
可以简单地对基础数据拟合一个曲线模型。第6章和第 7 章曾经给过一个这方面的多 
项式回归例子，即将预测变量 x 取了二次幂(并可能更高）同时作为预测变量。取对数也 
常常在很多领域中使用。其他常见的转换还包括第4章中介绍过的幂阶梯 （ladder of 

powers) 和 

包含 DIG 年到 I 986 年之间美国龙卷风信息的数据集(来源 

Council on Environmental Quality, 1988 ) 提供了一个简单的 实例。 


转换 


Box — Cox 


Contains data from C:\data\tornado.dta 
obs 


71 


IK S• tornados 1916-1986 

(Council on Env 
16 Jul 2005 14:57 


Quality 1988) 


_ 


vars 

size 


994 (99.9% of memory free) 


storage display 
variable name type format 


value 

label 


variable label 


%8 , Og 

%8,0g 

% 8 • 0 g 
float % 9 , Og 


year 
tornado 
1 i ves 
avlos t 


int 


Year 

Number of tornados 
Number of lives lost 
Average lives lost/tornado 


Sorted by 


year 


由于预报和监测龙卷风的能力不断提髙,因而认定的龙卷风数量（ tornado ) 也在增 

加，甚至包括那些危害很小的龙卷风，但是这一时期内由此丧生的数量 ( lives ) 在减少。 

因此，每年一场龙卷风的平均丧生数 （ aWost ) 随着时间推移在减少，但是线性回归（图 

8 * 6 ) 未能很好地描述这一趋势。起初，散点下降得比回归线更快，然后在1950 年代中期 

保持稳定。在后期，回归线竟然预测出后期的丧生人数为负值。此外，早期的平均丧生 
人数呈现出比晚期更大的变异，这表现出存在异方差性。 


graph twoway scatter avlost 


year 

I Ifit avlost year, clpattern(solid) 

I , ytitle ( TF Average number of lives lost M ) xlabel (1920 (10) 1990) 
ctitle("") legend(off) ylabel(0(1)7) 


line (0) 


图 8.6 






I _ 








# * 






o 


1920 


1930 -1940 


1050 




as 
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如果我们换成对平均丧生人数的对数进行回归的话，关系就成了线性的，同时异方 

差性也会消失（图 8/7) 


0 


In (avlost) 


generate loglost 
label variable Xoglost ,T In (avlost) 


If 


regress loglost year 


71 


Number of obs 


df 


MS 


SS 


Source 


18 2.24 
0.0000 
0,7254 
0.7214 
79747 


69) 


F ( 




Prob > F 

R-squared 
Adj R-squared 
Root MSE 


1 115.895325 

69 , 63595269 


Model I 115.895325 
Residual I 43.8807356 






70 2.28251515 


159,77606 




Total 


攀 


[ 95% Conf. Interval] 


P> I t 


Coef 


Std. Err 


t 


loglost I 


, 


053129 
138.5395 


0715545 
102.5894 


0.000 
0.000 


-13,50 

13-38 


004618 

9,010312 


. 0623418 
120.5645 


year | 

cons 












m 


_ predict yhat2 

(option xb assumed; fitted values) 

• label variable yhat2 "In(avlost)= 
label variable loglost n ln(avlost) M 


06year 


ir 


120.56 




graph twoway scatter loglost year 

|| mspline yhat2 year, clpattern(solid) bands(50) 

|| , y title (''Natural log (average lives lost)") 

xlabel (1920 (10) 1990) xtitle( lf n ) legend (off) ylabel (-4 (1)2) 

yline(0) 


图 8,7 


oi 
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* 


豢 








馨 


# 


蠢 




舞 




蠹 


暾 


蠢 


1950 1^60 19^0 1 


1920 1930 1940 

A • A 


回归模型近似 地为： 

预测值： ln ( avlost ) = 120*56 -0.06 year 

因为我们是就丧生的对数对 year 进行回归，因此模型预测值也是以对数单位 

(logarithmic units ) 进行测量的。通过逆转换 （ 

这些预测值返回到其自然单位（丧生人数），这里就是对 yhat 2 取 e 的指数幂 


transformation ) 将 


inverse 


• replace yhat2 = exp {yhat2) 

{71 real changes made) 
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应用 ST AT A 做统计分析 


画出这些经逆转换的预测值，呈现出曲线回归模型（图 8.8 )， 该模型是我们通过对转换的 

y 变量进行线性回归得到的。将图 S . 7 和图与图进行比较会发现转换是如何使 
分析变得既简单又接近实际 


0 


graph twoway scatter avlost year 

|| mspline yhat2 y&ar f clpatfcern(solid) bands(50) 

of lives lost") xlabel(1920(10)1990) 
xtitle (" ,f ) legend (off) ylabel (0 (1)7) yline (0) 


ytitle("Average nu 


r 


图 8.8 






CO 




U) 


ui 




'S 




费 




CO 




<1> 






gjcxj 




咨 












♦ 


• • 








% 




# 












o 


1920 1930 1940 


1950 1 




1970 1980 1990 


1 boxcox 命令使用最大似然方法来拟合经 Box-Cox 转换的曲线模型（第 4 章介绍 
过）。对龙卷风数据拟合因变量经过 Box-Cox 转换 （model ( lhs )) 设定针对左手边的 

变量做转换）的模型，我们会得到非常类似于图 8.7 和图8. 8 对应模型的结果。下述命令 
中的 nolog 选项并不影响模型，只是要求不显示每次拟合迭代过程后的对数似然值。 


boxcox avlost 


year, model(lhs) nolog 


Number of obs 

LR chi2(1) 

P rob > chi 2 


71 


92*28 
0.000 


Log likelihood 


-7 _ 7185533 


avlost 


Coef 


Std, Err 


P> I z 


[95% Conf. Interval] 


z 


/ theta I 


0560959 


064 6726 


-0.87 


0.386 


1828519 




07066 


鬌 




* 


Estimates of scale-variant 


parameters 


Coef 


Not rans 


year | 

cons I 


0661391 
127.9713 




* 


/sigma [ 


8301177 


Test 


Restricted 
log likelihood 


LR statistic 

chi2 


P-Value 

Prob > chi2 


HO : 


theta 

theta 

theta 


- 84.928791 

-8.0941678 

-101.50385 




154.42 
0.75 
187.57 




0.000 

0.386 
0,000 


0 


1 














str8 

f loa t 

byte 

byte 

byte 
i n t 

byte 

i nt 


country 

pop 

birth 

death 

chldmort 

in f mor t 

life 

food 

energy 

gnpcap 
gnpgr o 
urban 


int 

float 

byte 


in t 

byte 

byte 


school 1 

school 2 

school 3 


Country 

1985 population in millions 
Crude birth rate/1000 people 
Crude death rate/1000 people 
Child (1-4 yr) mortality 1985 
Infant (<1 yr) mortality 1985 
Life expectancy at birth 1985 
Per capita daily calories 1985 
Per cap energy consumed, kg oil 
Per capita GNP 1985 
Annual GNP growth % 65 — 85 
% population urban 1985 


Primary enrollment % age-group 
Secondary enroll % age-group 
Higher ed. enroll % age-group 








从图 8.9 中的散点图矩阵可以清楚地看到，出生率 （ birth )、 人均国民生产总值 

■ 

( gnpcap ) 和儿童死亡率 （ chldmort ) 之间的关系并不是线性的 
chldmort 的偏态分布也呈现出可能存在杠杆作用和类似影响问题。 


和 


gnpcap 


graph matrix gnpcap chldmort birth f half 


storage displ 

forma 


variable 


type 


name 
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boxcox 输出结果显示 theta = _ CLO 56 ， 作为对 avlost 进行转换的最优 Box - 

参数，以便将其与 year 之间的关系线性化。因此，左手边的转换为： 

一 1 )/(- 0 . 056 ) 

以诸如 -0 .056 这样一个接近零的参数进行 Box - Cox 转换得到的结果类似于我们前面 
“手工”对该变量所作的自然对数转换。因此 ，一点 也不奇怪的是 boxcox 回归模型有预 


Cox 


(-a 056) 


(-0056) 


= (avlost 


avlost 


测值 


( 一 0- 056 ) 


= 127 . 97 - 0 , Qlyear 

类似于前面图 8. 7 和图 8.8 中画出的模型（预测值为 In ( avlost ) =120.56 
year )。 boxcox 程序假定误差为正态、独立和同分布。然而，它在选择转换方法时并不 

考虑使残差正态化。 

boxcox 可以拟合几种不同的模型，包括以不同于 y 变量转换的参数对方程右边的 

一些或全部自变量进行转换的多元回归。它不能针对每个预测变量分别采用不同的转 
换。为了做到这点，我们在下一节将回过头来介绍一种“手工”曲线回归方法。 


avlost 


— 0.06 


转换史量茚炽 一 2 


对于多元回归的例子，我们将使用数据集 nations , dta (取自 World Bank , 

r 

1987 ；World Resources Institute ，1993 ) 中有关 109 个国家生活状况的数据。 


Contains data from C : \data\nations *dta 
obs : 
vars : 
s i ze : 


1985 


Data on 109 nations 

16 Jul 2005 14:57 


109 


ca - 


4 0 33 (99 * 9% of memory free) 


value 

label 


y 


variable label 


g gg g gg g ggg9 

ooooooooooo 


g gg 
o o o 


s 


998888888898 

% % % 0^0 % % % % % % % % 


8 8 8 

% % % 
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图 8-9 




40 


mmm 


20 


eg 


x 
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2D 


4^ 


y r . - 

10000 


0 


Kr*S 


20 


幂阶梯转换 （ 1 adderf-powers transformations ) 的试验显示出， 


gnpcap 

的对数和 chldmort 的平方根要比相应原始变量具有更为对称的分布、更少的特异值或 

潜在的杠杆作用点。更重要的是，这些转换大大消除了非线性关系，通过对比图 8.9 中 
的原始数据散点图和图 8 .10中其转换变量的散点图就能看到。 


generate loggnp = loglO( gnpc&p) 

label variable loggnp M Log-10 of per cap GNP 

generate srinoirt 


t (chldmort) 

I 

label variable srmort "Square root child mortality 11 

graph matrix loggnp srmort birth, half 


图 8.10 


6 


v« 


2^ 


a 


o 


6Q 




: 水 . 






2d 

I _ 


0 


0 


2 


我们现在可以使用这些转换变量进行线性回归 


regress birth loggnp srmort 





Number of obs 

F ( 1， 

Prob > F 
R-squared 
Adj R-squared 
Root MSE 


MS 


df 


SS 


Source 


106) 


2 7918.98016 

106 39,9828911 


Model I 15837,9603 

4238 - 18646 


Residual 




Total 20076*1468 108 185.890248 
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不同于原始数据的回归（未显示），这一转换变量的回归表明 :一旦 我们对儿童死亡率加 
以控制，人均国民生产总值对出生率的影响并不显著。转换变量回归拟合得略微更好一 

些:< =0.784 9而不是 0.671 5。（我们这里之可以对跨模型的杧进行比较只是因为 

两个模型都有相同的未转换的 y 变量。）杠杆作用标绘图将证实，转换已经大大削减了原 
始数据回归中的曲线关系。 


条件故启耘给圏 


条件效应标绘图 （conditional effect plots ) 描绘了在其他 x 变量保持在诸 

如平均数、中位数、四分位数或极端值等任意数值上不变时按某一 x 变量函数的 y 的预 
测值。此类标绘图有助于对转换变量回归结果进行解释。 

继续前面的例子，我们可以计算在 sriuort : 保持在其平均数 （2.49 ) 不变时按 
1 oggnp 的函数的出生率预 测值： 


[srmort] *2. 49 


generate yhatl 
label variable 


[loggnp]*loggnp + 
(gnpcap | srmort = 


[cons] + 




atl "birth 


49) 


命令中的 _ b [ vama / ne ] 这一项指的是最近一次回归的系数 


的回归系数。而 


v'arna/ne 


为了得到一个条件效应标绘图，画出 yhatl (尽管此处不需要，但是如果需要可进 
行逆转换)对转换的 x 变量的图形（图 8.11) 。因为条件效应标绘图不显示数据散点，因 

此添加诸如位于 x 变量的第10和第90百分位点这样的参照线 （reference lines ) 

可能会很有用，如图 8.11 所示。 

■ graph twoway line y tl gnpcap f sort xlabel<,grid) xline (230 10890) 

图 8.11 
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Coef 


Std. Err • 


t 
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-5.696903 
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13.58024 


9894259 

6.635207 

38.80953 


-1.40 

10.45 

4,12 


0,166 

0.000 
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1.686255 
533567 
6.362687 


-2 _ 353738 

5.577359 
26*19488 
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srmort 
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类似地，图 8.12 描绘了在 ioggnp 保持在其平均数 （3.09) 时按 srmort 的函数的 
预测岀 生率： 


[loggnp]^3. 09 + [ srmort]*srmort 

(chldmort | loggnp = 3.09) 

graph twoway line yhat2 chldmort f sort xlabel( f grid) xline(0 27) 

图 8.12 


generate yhat2 - 一 b[—cons] + 
label variable yhat2 ” birth 


vv 


g 
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)1 
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a 


Child (1-4 yr) mortality 1985 


我们如何才能对不同 x 变量效应的强度进行比 较呢？ 标准化回归系数 （ beta 权 
数)有时候被用于这一目的，但是它们所采用的专门化“强度”定义又很容易令人误解。 
一种更有实际意义的比较可能来自于查看基于相同 y 的刻度画成的条件效应标绘图，这 
可以通过使用 graph combine 并设定共同的 y 轴刻度来轻松实现，就像图 8.13 那样, 

预测值曲线经过的垂直距离，尤其是 x 取值中间80%的区间内（位于第10和第90百分 
位点处的两条线之间）的距离，提供了一种效应幅度的直观比较 
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o 


graph combine f±g08^11.gph f±g08 12 


ph, ycommon cols (2) scale(1.25) 




_________ 


图 8*13 
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【译 注:可 在画图 8. 11 的 graph twoway 命令的最后加上 saving ( figOS _ ， replace ) 将该图存为文件，图 

8.12 也这样做，便可画出图8.13。】 







byte 

float 

float 

float 


27625.96 
26547.42 
26138.3 
26138.29 


residual SS 
residual SS 
residual SS 
residual SS 






Iteration 0 

I teration 1 

I teration 2 
Iteration 3 


%9 . Og 


float 


y4 


2-param. exp, growth 


yl = bl*b2 >s x 


curve 


t 


100 


Number of obs 
F { 2 f 
Prob > F 
R-squared 
Adj R-squared = 
Root MSE = 

Res. dev. = 


df 


MS 


Source | 


SS 


1250.42 
0.0000 
0 * 9623 
0.9615 
16.33148 
840.3864 


98) 


+ 








Model I 667018.255 ■ 
Residual | 26138,2933 


2 333509,128 

98 266.717278 


Total I 693156.549 100 6931 .56549 


100 ) 


(obs 


storage displ 
variable name type forma 


nonlin . dta 数据是人工构造的，其中 y 变量被定义成 x 的多种非线性函数加上随 

机高斯误差 （random Gaussian errors ) 。比如， yl 表示指数增长过程 yl =10 

根据该数据估计这些参数，1得到 yi =11.20 x 1.03' 它相当接近真实模型。 

1 exp2 vl 


x 


X 


1.03 


o 


Sorted by 


x 


Independent variable 

1,03 A x + e 


10 


yi 


* 


10 


95 A x) + e 
5 + 25 / (1+exp (--1*(x-50))) 


女 


(1 


y2 




y3 




十 e 


y4 


5 + 


25 *exp {-exp(- - 1 *(x-50))) + 


e 







(SE * S 


P values. Cl 


1 


and correlations are asymptotic approximations) 


s 


i 


/ 


predict 命令获得由 1 估计得到的非线性模型的预测值和残差。图 8.14 画出了 
前例中的预测值，表明模型和数据之间紧密拟合 （ i ? 2 =0.96) 


0 


:95% Conf. Interval ； 


yi 


Coef * 


Std, Err 


P> I t 


t 


11.20416 

1.028838 


1.146682 

. 0012404 


9*77 
829.41 


0 • 000 

0 _ 000 


8.928602 
1.026376 


13.47971 
U 031299 
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3 拟合曲线 


如图 8.13 中那样，将几个条件效应标绘图合并成一幅具有共同纵轴刻度的图像，可 
以对不同效应的强度进行迅速直观的比较。图 8 . i 3 清楚地反映出儿童死亡率对出生率 
的影响要强大得多，而单独的标绘图（图 8.11 和图 8 _1 2 )却做不到这点。 


非綵 性田炽 一1 


变量转换通过使用熟悉的内在（ intrinsically ) 线性模型技术使得拟合一些曲 
线关系成为可能。但是，内在非线性模型需要不同类型的拟合技术。命令1使用迭代 

least squares ) 进行非线性回归 （nonlinear 

a 

regression ) 0 本节使用一个简单例子的数据集 nonlin . dta 对此加以介绍： 


最小二乘法 ( 


iterative 


Contains data from C : \data\nonlin-dta 
obs 


Nonlinear model examples 

(artificial data) 

16 Jul 2005 14:57 


100 


5 


vars 


2 100 (99,9% of memory : free) 


s^ze : 


g g g 
o o o 


g 

o 


9 9 9 9 
% % % % 


12 3 

X y y y 

















(option 




IE 


臼 _S: 


mm 


CVi 




S 




m 




O 




20 


80 100 




如 40 


X 






203 


3 拟合曲线 


( y 4) 函数对应 


2 a (y2 ) 、 log4 ( y 3 ) 和 


nonliii.dta 包含了与 exp2(yl ) 

的例子。图 8.15 显示了使用 nl 对 y 2 、 y 3 和 y 4 进行拟合得到的曲线。 




用户也可以进一步编写自己的 nl 函数 （nlfunct ion) 程序。这是用于定义一个2 
参数指数增长模型的 nlexp2 . ado 程序的 代码： 


12 junl998 


version 1.1.3 
program define nlexp2 


6 


version 


if 


1 


global S_2 "2-param ， exp. growth curve, $S_E_depv=bl'2 ’ 

global S~1 ” bl b2” 


Approximate initial values by regression of log Y on X 


e(wtype) _ 、 e(wexp)■] 


local exp 
tempvar Y 
quietly { 

gen 
r eg 


log ( "e (depvar) 1 ) if e (sample) 
、 Y 、 '2 f ^ exp 1 if e(sample) 


' Y ， 


global bl = exp( b[ cons]) 
global b2 
exit 


exp ( b[ 、 2 1 ]) 




replace ' 1 ($b2) A 、 2, 


end 


这个程序为待定参数找到一些近似的初始值 （initial values ) ，将这些值存成名 
为 bl 和 b 2 的“全局宏 ” （global macros ) 0 然后应用初始参数估计值和以下模型方 

程计算出一套初始的预测值，作为一个名为1的“局部宏 ” （local 

replace 、1’= $ bl * ( $ b 2 ) "'2 1 

随后的 nl 迭代将返回到这一行，计算出新的预测值(替换宏1中的内容）作为它们对参 
数估计值 bl 和 b 2 的改进。在 Stata 程序中，符号 $ bl 意指“全局宏 bl 的内容”。类 
似地，符号 '1' 意指“局部宏1的内容”。 

在用户尝试编写自己的非线性函数时，请研究 nllog 4 . ado 、 nlgom 4 . ado 和其他 
示例程序，同时参考有关手册或键入 help nl 寻找说明 。第 14章还有 Stata 的宏和 

其他编程方面的进一步讨论。 


macro 


非线性回辑—2 


我们的第二个例子涉及真实数据，并且将示范研究中有帮助的一些步骤。数据集 

Jiehen . dta 涉及对挪威极地斯瓦尔巴群岛苔藓 （ lichen ) 生长的测量（取自 Werner , 

1990 ) 。这些生长缓慢的共生体常常被用来断定岩石遗迹和其他沉积物的年代，因此它 
们的增长率 (growth rates ) 令数个领域的科学家感兴趣。 

正如图 8.16 中的 lowess 修勻曲线显示的那样，苔藓典型地呈现出早期生长相对 

较快，然后逐渐放慢的生长过程阶段性。 

■ 

苔藓计量学家通过画出增长曲线 （growth curve ) 来总结和比较此类模式。这些 

增长曲线可能并没有使用明确的数学模型，但是我们在这里可以拟合一条曲线来举例说 
明非线性回归的过程。 Gompertz 曲线是已被广泛用于对生物生长过程进行建模的非 

对称的 S 形曲 线： 


% 3 1 s 


locale 

point 

date 

age 

rshor t 

r long 
pshor t 

pi ong 


s t r 31 

st r 1 


i n t 


float 

float 


in t 


i n t 


Locality and feature 
Control point 
Date 

Age in years 
Rhizocarpon short 

Rhizocarpon long 

P.minuscula short 
P,minuscula long 


axis mm 


axis mm 


axis mm 


axis mm 


Sorted by 


图 8.16 


40 


E 30 


E 


R 


D> 


S 20 


萣 10 


0 


0 


100 


400 


Age in years 


b , exp ( - exp ( - b 2 (x - b 3 ))) 

它们可能提供了一个反映苔藓生长过程的合理模型。 

如果我们想要画出非线性模型，数据应当包含间隔紧密的 x 取值的合理范围。 
lichen . dta 中11个苔藓样本的实际年龄范围分布从28 ~ 34 6岁。用以下命令，我们 

可以创建 89 条另外的人工观测案例，它们的“年龄，，以4年为增量从0岁一直到 

352 岁： 


y 


range newage 0 396 100 

obs was 11, now 100 

replace age = nevage [_n-ll ] 

(8 9 real changes made) 


a >= 


第一行命令创建一个新变量 ja e wge , 它包含 100 个取值，取值范围以4年为增量从0 

在这样做的过程中，我们也创建了 89 条新的人工案例，它们在除了 
的所有变量上都是缺失值。 replace 命令以 n ewa ge 的取值从0开始替代人工案例中 
age 的缺失值。数据中的前 1 5 条观测案例现在看起来像 这样： 


396 


之外 


o 


newage 


list rlong agre nevagre in 1/ 
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Contains data from C : \data\lichen* dta 
obs : 
va rs : 
size: 


11 


Lichen growth (Werner 1990) 
14 Jul 2005 14 : 57 


8 


572 (99.9 


of memory free) 


storage display 
type format 


value 

label 


variable name 


variable label 


o 


' ggg g g 
o o o o o 


s 


9 8 8 9 9 8 8 

% % % % % % % 
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newage 


r long 


age 


0 


28 


56 


5 


2 


8 


79 


12 


3 


12 


80 


14 


4 


16 


80 


13 


5 


20 

2 4 I 


80 


6 


89 


28 


89 


10 


32 


34 346 

34 346 


9 


36 


40 


25*5 131 


11 


44 


0 


12 


48 


13 


52 


8 


14 


56 


12 


15 


rlong age newage 


summarize 


Min 


Max 


Std. Dev 


Mean 


Variable 


Obs 


34 


11.31391 

104,7042 
116 • 046 


14.86364 

170.68 


11 


rlong I 

age I 

newage | 


352 


0 


100 


396 


0 


198 


100 


我们现在可以用 drop newage 删除变量 newage 0 只有原始的 11 条观测案例才 

具有非缺失的 rlong (即宿根植物长轴）取值，因此只有它们才将进人模型估计。但是， 
Stata 对任何一条具有非缺失的 x 取值的观测案例计算预测值。因此，我们既可以得到 
11 条真实观测案例的预测值，也可以得到 89 条人工案例的预测值，这些值将为我们准 

确地画出回归曲线提供了可能。 

苔藓生长始于接近于零的尺寸，因此我们选择 gom 3 这一 Gompertz 函数而不是 
gom 4( 它纳入了一个非零的初始水平，即参数 Jb 。）。 图 8.16 表明渐近上限大约为 34 ,意 
味着 34 应当是参数仏的合理推测或起始值。这一模型的估计可采用以下命令 完成： 

1 gom 3 rlong age f init ( Bl =34) nolog 


ffl 


(obs 


11 ) 




11 


Number of obs 
F( 3, 

Prob > F 
R-squared 
Adj R-squared = 
Root MSE 
Res. dev * 

3-parameter Gompertz function f rlong=bl*exp (- exp(-b2*(age-b3>)) 


MS 


SS 


df 


Source 




125* 68 
0 *0000 
0,9792 
0.9714 
3,104208 

52 _ 63435 


8 ) 


3 1211.05371 

8 9.63611018 


Model I 3633.16112 
Residual I 77.0888815 


11 337.295455 


3710*25 


Total 




[95% Conf 


erval ] 


Coef 


S td 


P> 


long 


39,59451 
0357904 

101.7857 


15.16 

3.58- 

15.76 


000 


29.13823 
0077465 

75.80834 


2.267186 
0060806 
5.632545 


34.36637 
0217685 
88.79701 


007 


b2 


蝥 




# 


蜂 


000 


b3 


(SE _ s, P values. Cl 1 s, and correlations are asymptotic approximations) 


选项 nolog 关闭了结果中对每次迭代的对数似然值的输出显示。所有三个参数的 
估计值都显著地区别于1。 
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我们使用 predict 来获得预测值，并画出它们以查看回归曲线。用 yline 选项要 
求显示图 8.17 中这条曲线的下限和估计的上限 （0 和 34.366 )。 


- predict yhat 

(option yhat assumed; fitted values) 


graph twoway scatter rlong 

|| mspline yhat age f clpattern(solid) bands(50) 
I I f legend(off) yline (0 34.366) 

ytitle("Rhizocarpon long 


> xlabel (0 (100) 400, grid) 

图 8,17 


§ 


E 


B 


(O 


O) 


非线性回归程序可能对其初始参数估计值非常敏感，尤其是在处理很少数据或相对 
复杂的模型时。如果由 nl 函数程序 （ nlfunctiorz ) 提供的默认值似乎不起作用的话， 

nl 命令结合 init 选项允许研究者建议他们自己的初始值。先前针对类似数据的经验 

或其他学者发表的成果可能有助于提供合适的初始值。作为替代办法，我们还可以用 

计算出基于任意选定的数套参数值的预测值以试错方式进行估计，并用 
graph 标绘图来比较不同预测结果和数据是否一致。 


generate 



稳健回归 


St at a 的基本 regress 和 anova 命令执行常规最小二乘法 （ OLS ) 回归。 OLS 的 

普及 源自其在假定“理想”数据条件下的理论优势。如果误差分布为正态、独立、同分布 
(即 normal i .i . d .) ,那么 OLS 解会比任何其他无偏估计更有效率。然而，这一'陈述的 

反面却常常被忽略 了:如 果误差不是正态分布，即非 i . i . d . 的话，那么其他无偏估计也 

许比 OLS 做得更好。实际上， OLS 的效率在重尾 （ heavier - tailed ) 误差分布（即特异 

值倾向）条件下迅速退化。然而,这样的分布在许多领域司空见惯。 

OLS 倾向于追随特异值，为了拟合它们损失了其他样本案例。长期以来，由于样本中 
经常包含特异值，进而导致不同样本之间在结果上差异很大,或者说效率较差。稳健回归 

(robust regression) 方法在理想数据条件下几乎可以取得与 OLS —样的效率，而在数 

据不理想（比如，误差非正态）时能够取得比 OLS 高得多的效率。“稳健回归”其实包含了 
多种不同的技术，每一种在处理有问题的数据时者卩有自己的优点和缺点。本章介绍两种稳 

健回归， rreg 和 greg ， 并且将它们的结果与 OLS ( regress ) 的结果加以比较。 

rreg 和 qreg 都能抵抗特异值的牵引，在非正态和重尾型误差分布的情况下便能 

取得高于 OLS 的效率。然而，它们共享 OLS 关于误差独立和同分布的假定。结果是，它 

们的标准误、统计检验和置信区间在误差异分布或误差相关时也不可信。在使用 

或其他模型命令时（尽管不是 rreg 和 qreg) ，想要放松误差独立和同分布假 

定， Stata 也提供了估计稳健标准误的选项。 

为了简明，本章集中讨论双变量的例子，但是稳健的多元回归或多因素 ANOVA 可以 

直接应用同样的命令。第14章还会回过头来讨论稳健性问题，并说明如何应用蒙特卡 

罗试验来评价相应的统计技术。 

本章描述的几种技术可以从菜单选择上 得到： 


regress 


Statistics-Nonparametric analysis-Quantile regression 分位数回归 


related-Linear regres s ion-Robust SE 

稳傲示准误 


Statistics-Linear regression 


命令示絶 


2 x3 


rreg y 


执行 y 对 3 个自变量的稳健回归，釆用再加权最小二乘法加上 Huber 和双权数函 
数，并按95%高斯效率调整。在适当设置数据时， rreg 还可以取得稳健的平均数、置信 

区间、平均数差异检验，以及 ANOVA 或 ANCOVA 。 

I 

2 x3 f nolog tune(6) genwt {rweight) iterate(10) 


rreg y 
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执行 y 对 3 个自变量的稳健回归。上述选项指示 Stata 不要打印迭代过程的输出， 
采用调整常数 6 ( 它比默认的 7 能更快使特异值的权数缩小），产生一个新变量(任意命^ 

ght ) 来为每一案例存放最终迭代的稳健权数，并且限制迭代最多进行 10 次。 


为 


rwei 


1x2x3 


• q^eg y 

执行 y 对 3 个自变量的分位数回归 （quantile regression ) ，也称为最小绝对值 

(least absolute value ， LAV ) 回归或最小 LI -规范回归 （ minimum LI 

regression ) o 按照默认， greg 建立 y 的 0.5 条件分位数（近似于中位数）作为自变量 
的线性函数，于是提供了一种“中位数回归”。 

3 f quantile(.25) 

执行 y 对 3 个自变量的分位数回归，建立 y 的0. 2 5条件分位数（第 
xl . x 2. x 3 的线性函数。 

.bsqreg y xl x2 x3, rep(100) 

执行分位数回归，用自助法 （ bootstrap ) 对数据重复抽样100遍 （ 默认设置为 
( 2 0 )) 以估计出标准误。 

predict 


-norm 


qreg y xl x2 


四分位）作为 


_ 


rep 


,resxd 


在执行 


bsqreg 命令之后，进一步计算出残差值（指定命 
名为 e )。 与此类似， predict yhat 可进一步计算出乂的预测值。其他 predict 选项 
在某些限制条件下也可应用。 


regress 、 rreg 、 qreg 


y xl x2 x3 f robust 


regre 




执行 y 对 3 个自变量的 OLS 回归 


通过不需要假定误差同分布的稳健方法 
( Huber/White 方法或三明治方法）对系数的方差及标准误进行 估计。 如果加上 

cluster () 选项，还可容纳误差之间一种来源的相关。《用户指南》中描述了这些方 
法背后的原理。 ~ 


用理想教接的回拉 


为了阐明稳健性问题，我们来探究一个人工小数据 ( 


n = 20 ) robustl .dta 


Contains data from C : \data\robustl 
obs 


dta 




20 


Robust 


regression examples 1 
(artificial data) 

17 Jul 2005 09:35 


var s 
size 


10 


880 (99.9% of 


memory free) 


storage display 
type format 


value 

label 


variable 


name 


variable label 


float %9, Og 
float % 9,0 g 

float %9.0g 

float % 9.Og 
float % 9•Og 
float % 9,Og 
float % 9 
float %9.0g 
float % 9 . Og 
float %9 _ Og 


Normal X 

Normal errors 

yl = 10 + 2*x + el 

Normal errors with 1 outlier 
y2 = 10 + 2*x + e2 
Normal X with 1 
Normal 

y3 = 10 十 2^x3 + e3 
Skewed errors 

y4 = 10 + 2* k + e 4 


yi 


e2 


y 2 


x3 


leverage obs 
errors with 1 extreme 


e3 


0 g 


晷 


y3 


y4 


Sorted by 
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变量 X 和 el 各自都包括 2 0个来自独立标准正态分布的随机值。 y 1 包括 2 0个由 
回归模型产生 的值： 


yl =10 + 2 x + el 


形成这前3个变量的命令为 


clear 

set obs 20 

generate ^ 
generate e 

generate yl = 


(uniform()) 
(uniform()) 


xnvnorm 


xnvnorm 


He 


10 + 

要是用实际数据，编码错误和测量误差有时会导致极特异的值。为了模拟这种情况，我 

们可以将第2个案例的误差从改为 19.89； 


1 


generate e2 = 

replace 
generate y2 = 


2 = 19.89 

10 + 


+ e2 


★ 


用类似的处理方法形成了 robustl .dta 中的其他一些变量。 

yl 和 x 呈现了一种理想的回归 问题: yl 的期望值其实只是 x 的线性函数，误差来自 

于正态、独立，并且相同的分布，因为这些都是我们定义的。 0 LS 很好地估计了真实的截 

距 (10 ) 和斜率 (2 ) ，取得的回归线如图 9 .1 所示。 


regress yl 


20 


Number of obs 

F( 1, 

Prob > F 

R-squared 
Adj R-squared 
Root MSE 


MS 


df 




SS 


Source 


108.25 
0,0000 
0.8574 
0,8495 
1 * 1128 


13) 




1 134.059351 

18 1.23842055 


Model I 134, 059351 

22.29157 


Residual I 




19 8.22899586 


Total I 156*350921 


[95% Conf - Interval] 


P> I t 


Std. Err 


t 


Coef 


yi 


2,461616 
10.48836 


1_ 634498 
9.43796 


0 _ COO 
0.000 


10 , 40 

39.85 


1968465 

2499861 


2*048057 

9.963161 


■ 


cons 


, 


用迭代再加权最小二乘法 （ IRLS ) 程序 rreg 来取得稳健回归估计。第一步 rreg 
迭代是从 OLS 估计开始的。在第一步后任何影响大到 Cook 的 D 值大于1的案例都将 
会自动被搁置一边。然后，应用 Huber 函数为每一个案例计算出权数，它会使残差较大 
的案例得到较小的权数，再继续进行加权最小二乘 &( WLS ) 估计。经过几步 WLS 迭代， 

权数函数转变为 Tukey 双权 （Tukey 13：1^^1^]11:，参见1^，1 985 )，并按 95 %高斯效率 
加以调整（细节参见 Hamilton ，199 2 a )。 rreg 估计出标准误并进行假设检验，用的 

是伪值法 （pseudo values method ) (见 Street ， Carroll 和 Ruppert ， I 988 )， 因 


为其不需要假定正态性。 

这一“理想数据”示例没有包括严重的特异值，所以这里本来用不着 rreg 

所取得的截距和斜率估计与 regress 所取得的类似（都与真值10和 2 差得不多），但 

d . 误差条件下,正如本例所示， rreg 


rreg 


是它们的估计标准误稍大一^点。在 normal 

理论上拥有 0 LS 效率的95% 


o 


都同属最大似然估计族 ( M - estimators ) 。而另一种序次统计 

估计法 （ L-estimators) 采用拟合 y 的分位数，而不是它的期望值或平均数。比如，我 
们可以建模表示 y 的中位数（0_5分位数）如何随 x 变化。 qreg ， 一种 L 1 型估计，可以 


rreg 与 


regress 
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完成这种分位数回归，并提供了另一种能够很好抵抗特异值的方法 

.predict yhatlo 


graph twoway scatter yl 

M line yhatlo 
\ I / ytitle( M yl 


clpattern(solid) sort 

10 + 


* 


1 11 ) legend (order (2) 
OLS line") position(11) ring(0) cols(1)) 


+ 




label ( 


IT 


图 9.1 


OLS line 










数 




<D 




* 


金 




CMO 






O 


豳 


躲 




哦 




<D 




2 


Normal X 


rreg yl 


Huber iteration 1 
Huber iteration 2 
Biweight iteration 3 
Biweight iteration 4 
Biweight iteration 5 


maximum difference in 
maximum difference 

maximum difference in 
maximum difference 
maximum difference in 


weights 


35774407 

02181578 

14421371 

01320276 

00265408 




* 


in weights 




_ 


weights 
in weights 






weights 




* 


Robust regression estimates 


Number of obs 

18) 


20 


F { 


79,96 
0.0000 




Prob > F 


yl 


Coef 


StcL Err 


P> I t 


[ 95% Conf 


Interval ] 




2,047813 
9 - 936163 


x I 

cons 


2290049 
■2908259 


8 . 94 
34.17 


0 _ 000 

0 _ 000 


1,566692 
9 . 325161 


2.528935 
10.54717 




qreg yl 


Iteration 1 


WLS sum of weighted deviations = 


* 


17,711531 


Iteration 1: sum of abs, 
Iteration 2 


weighted deviations 
weighted deviations 


17.130001 

16.858602 




sum of abs, 






Median regression 

Raw sum of deviations 
Min sum of deviations 


Number of obs 


20 


46*84 (about 10.4) 
16,8586 


Pseudo R2 


0.6401 


yi 


Coef 


Std* Err 


t 


P> I t I 


[95% Conf• Interval] 


2 . 139896 

9. 65342 


2590447 

3564108 


x 


8 I 26 

27.09 


0 . 000 

0 . 000 


1 - 595664 
8 - 904628 


2•684129 
10,40221 




cons 




尽管 qreg 取得了合理的参数估计，但它们的标准误都超过了 regress ( OLS ) 和 rreg 。 
在理想数据条件下， greg 是这 3 种估计中效率最差的。在以下各节，我们再来看看它们 
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在数据并不理想条件下的作为。 


r 上的犄异值 


变量 y 2 与 yl 相同，但是有一个由第 2 号案例的“严重”误差所导致的特异值 。 OLS 
估计对特异值几乎没有什么抵抗力，所以案例 2 的这一变化（在图 9 .2的左上部）极大地 
改变了 


的结果 


regress 


regress y2 


20 


Number of obs 
F( 1, 

Prob > F 
R-squared 
Adj R-squared 
Root MSE 


MS 


ss 


df 


Source | 




18) 


0 . 97 
0*3378 
0.0511 
-0.0016 
4.3984 


1 18.764271 

18 19 - 3463039 


Model I 18 * 764271 
Residual [ 348,233471 






Total I 366,997742 


19 19.3156706 


[95% Conf. Interval: 


y2 I 


Coef 


Std. Err 


P> I t 


m 


7662304 
11 . 1579 


7780232 

9880542 


0 • 98 

11.29 


0,338 
0.000 


8683356 

9.082078 


2,400796 
13.23373 


x 




♦ 


cons 




* predict yhat2o 

(option xb assumed; fitted values) 

• label variable yhat2o TT OLS line (regress) VT 


这个特异值提高了 OLS 截距（从 9.936 升至 11.15 7 9 )，并且减低了斜率（从 2.048 降 
到0.766)。 i ? 2 也从0 .857 4减小到 0.051 1。标准误相当于原来的4倍，而且 OLS 斜 

率（图 9.2 中的实线）变得不再显著区别于0 了。 

然而，正如图 9.2 中虚线所示，这个特异值对于 rreg 几乎没什么影响。稳健系数几 
乎没什么变化，仍然接近于真实参数10和2，并且稳健标准误也没有提高多少。 

rreg y2 x r nolog genwt (rweight2) 


Robust regression estimates 


19 


Number of obs 




F{ 1 


17) 


63*01 

0,0000 


Prob > F 


y 2 


Coef 


Std. Err 


P> I t 


[95% Conf. Interval] 


t 


_ 


1.979015 
10.00897 


2493146 

3071265 


7 , 94 
32.59 


0.000 
0.000 


1.453007 
9.360986 


2,505023 
10•65695 


x 


i 


cons 


t 


• predict yhat2r 

(option xb assumed; fitted values) 

label variable yhat2r M robust regression (rreg) 


graph twoway scatter y2 

|| line yhat2o x r clpat^tern (solid) sort 
|| line yhat2r 
|| , ytitle( M y 

legend(order(2 


x 


clpattern(longdash) sort 
10 + 


+ e2 f, ) 

)position(1) ring(0) cols(1) margin(sides)) 










0.44 

0 . 69 
0 - 78 
0.79 
1.26 


5202664 
1.885513 
6725982 
-1_ 992389 

0925257 


97360863 

68048066 
95572833 | 

64644918 | 
99913568 | 


寺 


争 


■ 






_ 


* 




4 


售 


1 *27 
1 .47 
1 . 61 
1.81 
2 . 12 


1 . 617685 

2581189 
4551811 
8909839 

0144787 


75887073 | 
99338589 | 

97957817 | 

92307041 | 
99997651 | 


_ 




_ 


m 




鬌 


_ 






秦 




* 


_ 


接近于 o 的残差所产生的权数接近于 1， 越大的残差得到越发更小的权数。案例 
由于影响过大已经被自动地搁置一边，因为其 Cook 的 D 统计量已经大于1 了，所以 

rreg 分配给案例 2 的权数为“缺失”，于是这个案例对最终估计完全没有影响。要是用 

伴以分析权数的回归（结果略）会得到相同的最终估计，但是标准误或统计检 


2 


regress 


验是不正确的 
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图 9.2 


OLS regression (regress) 
robust regression (rreg) 




象 


X 


04 






II 


0 




O 






應 










% 




-2 


2 


Normal X 


上述命令的 nolog 选项导致 Stata 不再打印迭代记录。选项 genwt ( rweight 2 ) 

将稳健权数存为名为的变量 

• predict resid 2 r , resid 

list y2 


O 


resid 2 r rweight 2 


y2 


resid2r 


rweight2 


x 


5.37 

26.19 

5 . 93 
8.58 

6 . 16 


-1.97 

-1-85 

-1.74 

-1 • 3 6 
-1.07 


7403071 
19.84221 
6354806 
1.262494 
-1.731421 


94644465 




* 


, 


2 


3 


96037073 
8493384 
7257631 




_ 


_ 


4 


_ 


5 


* 


9.80 

8 I 12 

10*40 


-0.69 

-0 _ 55 
-0,49 
-0 .42 
0.33 


1 *156554 
8005085 
1.36075 

17222 

4979582 


87273631 

93758391 

82606386 

99712388 

97581674 


擎 




_ 


叠 


8 


V 


9 


9 * 35 




■ 


10 


11.16 


4 




0 6 8 8 1 
4 2 8 5 4 


1 


8 9 0 
112 
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9 稳健回归 


rwelght 2 ] 


[aweight 

要是用 greg 做 y 2 对 x 的回归，也能抵抗特异值的影响，并且比 regress 做得要 

更好，但是其表现不如 rreg 。 qreg 显得比 rreg 的效率低，并且就这个样本的系数估 
计距离真值10和2来说有点过大。 


y2 






regre 


qreg y 2 


nolog 


20 


Number of obs 


Median regression 

Raw sum of deviations 
Min sum of deviations 36.20036 


56*68 (about 10.88) 


0.3613 


Pseudo R2 


[ 95% Conf - Interval] 


P> I 11 


Std- Err 


t 


Coef 


y2 


2.684055 
11.18406 


9588014 
9.045941 


0.000 
0.000 


4105944 

5088526 


4.44 

19 _ 88 


1 .82X428 

10.115 


x 


■ 




cons 


4 


蒙特卡罗研究者也已经注意到，用 < jreg 计算的标准误有时会低估计真正的样本之 
间的变异，尤其是当样本规模较小时。作为一种替换， Stata 提供了 bsgreg 命令，它与 

完成同样的中位数或分位数回归，但运用自助法 （ bootstrapping , 即数据再抽 


qreg 

样)来估计标准误。选项 rep () 控制重复的次数。它的默认设置是 rep ( 2 0)， 这对于 
探测性工作已经足够了。在取得“最终”结论之前，我们可以多花点时间抽出200或更 
多的自助样本。 qreg 和 bsgreg 拟合的是同样的模型。在下面的例子中， bsqreg 也 

取得了类似的标准误。到第14章时我们还会再谈自助法的话题。 


rep (50) 


bsqreg y 2 


t 


(fitting base model) 
(bootstrapping . 


20 


Number of obs 


Median regression, bootstrap(50) SEs 
Raw sum of deviations 
Min sum of deviations 36.20036 


56-68 (about 10.88) 


0.3613 


Pseudo R2 


； 95% Conf. Interval] 


P> I 11 


y2 


Coef. 


Std * Err 


t 


9632587 
9.111869 


2 • 679598 
11.11813 


0 _ 000 
0.000 


4084728 
.4774718 


4 _ 46 
21 _ 18 


1 . 821428 
10.115 


* 


峰 


cons 


X 上的 特异值 （ 社杆作用 ) 


bsqreg 都能较好地处理 y 上的特异值，除非具有异常 y 值的案例 
还同时具有异常的 x 值(也称杠杆作用， leverage ) 。在 robustl . dta 数据中的变量 

y 3 和 x 3 提供了关于杠杆的极端例子。除案例2是个杠杆作用案例以外，其他所有变量 
值都与 yi 和 x 相同。 

案例2有很强的杠杆作用,再加上它有非寻常的值，两者结合起来导致其影响巨 

大: regress 和 qreg 都追随这个特异值,报告说“最佳拟合”线有负的斜率（图9.3)。 


rreg 、 qreg 
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regress y3 x3 


Source 


SS 


df 


MS 


Number of obs 




F( 


18) 


Model I 139.306724 
Residual | 227 . 691018 


1 139.306724 

18 12 _ 649501 


Prob > F 
R-squared 
Adj R-squared 
Root MSE 








Total I 366 - 997742 


19 19.3156706 


y3 I 


Coef 


Std. Err 


t 


P> I t I 


[95% Conf, Interval: 


x3 I 
cons I 


6212248 
10.80931 


1 8 719 7 3 
8063436 


-3.32 

13.41 


0.004 
0 . 000 


-1.014512 
9 .115244 


-,227938 

12.50337 






4 


■ 


predict yhat3o 

label variable yhat3o !, OLS regression (regress) 


VI 


qreg y3 x3 f nolog 


Median regression 

Raw sum of deviations 
Min sum of deviations 56.19466 


Number of obs 


20 


5 6 * 68 (about 10.88) 


Pseudo R2 


0 . 0086 


Coef 


Std 


95% Conf 


> 


rr 


羲 


6222217 
11,36533 


347103 
1.419214 


- 1,79 
8.01 


090 

■ 


x 


-1 . 351458 
8 • 383676 


.1070146 
14.34699 








con 


000 


學 predict yhat3q 

• label variable yhat3q "median regression (qreg) 

• rreg y3 x3, nolog 

Robust regression estimates 


t! 


Number of obs 


19 


F { 


17) 


63,01 
0 _ 0000 




Prob > F 


y3 


Coe f 


Std, Err 


t 


P> I t 


[95% Conf * Interval] 


4 


x3 

cons 


1.979015 
10 . 00897 


2493146 

3071265 


7 . 94 

32.59 


0 _ 000 
0 - 000 


1,453007 

9.360986 


2*505023 
10 , 65695 




■ 


predict yhat3r 
label variable 


yhat3r "robust regression (rreg) n 


graph twoway scatter y3 x3 

|| line yh^t3o x3 f clpattern(solid) sort 


I line yhat3r x3 f clpattern(longdash) sort 
I line yhatJg x3, clpattern(shortdash) 


sort 攀 

ytitle( M y3 = 10 + 2*x + e3") legend (order (4 3 2) position (5) 

ring(0) cols(1) margin(sides)) ylabel(-30(10)30) 





0 18 6 16 
2 0 3 9 5 6 


•0745 
10 3 3 5 


0 0 0 3 


















Source | 


SS 


df 


MS 


Number of obs 

1, 

Prob > F 
R-squared 
Adj R—squared 
Root MSE 




18) 


Model 
Residual | 


155 * 870383 

402*341909 


1 155.870383 

18 22.3523283 






Total I 558.212291 


19 29.3795943 


y4 I 


Coef 


Std. Err 


[95% Conf * Interval] 


P> ] t 


t 


_ 


regre 


y 
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9.3 






X 


+ O i 


o 




median regression (qreg) 


robust regression (rreg) 


OLS regression (regress) 


-20 


*15 


-10 

with 


‘5 


0 


Nohrtal X 


1 lev 


o 


图 9.3 显示出， regress 和 qreg 对于杠杆作用（即 x 上特异值）并不稳健。然而， 

rreg 程序不仅削弱了较大残差案例的权重（这种功能本身并不能防护杠杆影响），而且 
还自动地将那些 Cook 的 D (影响）统计量大于1的案例搁置在外了。当我们将 y 3 对 
x 3 回归时，这种情况就发生了。 rreg 不再理睬这个最有影响的观测案例，在其他19个 
案例基础上求出了一条更加合理的正斜率的回归线。 

将影响特大的案例置于不顾，就像 rreg 所为，提供了一种简单的但是并不十分安全 
的方式来处理杠杆作用。还存在着更综合的方法，称为有限影响回归 （ bounded - 


inf luence regression ) ，也可以在 Stata 程序中执行。 


图 9.2 和图 9.3 的例子只涉及了单一特异值，其实稳健程序可以处理更多特异值。如 
果有太多严重的特异值，或者有一组类似的特异值，可能会导致稳健程序中止。但是在这 
种场合，诊断用的标绘图常常值得加以注意，分析人员必须要问，拟合一个线性模型是否有 
意义。很可能值得去寻求一种明确的模型来解释什么导致这些特异值之所以特异。 

蒙特卡罗试验(在第14章示范）确认，像 rreg 和 qreg 这样的估计方法应用于重 
尾（特异值倾向）但对称的误差分布时，通常能保持无偏，效率要优于 0 LS 估计。下一节 
示范当误差为不对称分布时会产生什么结果。 


不对称的该差分布 


在数据 robustl . dta 中，变量呈偏态分布并含有特 异值: e 4 等于将 el (标准 
正态变量)做4次方、然后调整为平均值为0。这些偏态误差、加上与 x 之间的线性关系 
定义变量 y 4 = 10 + 2 x + e 4。 不管误差分布的形状如何， OLS 仍然是无偏估计。从 
趋向上看，其估计应该以真实参数值为中心。 



2,208388 

9. 975681 


8362862 

1.062046 


2.64 
9. 39 


0,017 

0 I 000 


4514157 

7 .744406 


3,96536 

12 .20696 


x 


4 




cons I 



0 7 6 2 2 8 
2 9 6 9 9 7 

■ 1 7 3 2 

6 0 2 2 7 
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但是大多数稳健估计却并不是这样。除非误差是对称的，用 dreg 拟合的中位线或 

用 rreg 拟合的双权 （ biweight ) 线在理论上并不与用 regress 估计的 y 期望值线相 

符。只要偏态误差只反映在分布中很小部分，那么 rreg 展示不出有偏。但是当整个分 
布都呈偏态时，比如，像 e 4 那样， rreg 就会集中在一侧削弱权数，导致 y 上的截距估计 
显著有偏。 


nolog 


rreg y 


Robust regression estimates 


20 


Number of obs 




18) 


1319*29 
0 _ 0000 


Prob > F 






Coef 


Std* Err 


P> I t 


[95% Conf. Interval] 


1 * 952073 
1 • 476669 


0537435 

0682518 


36.32 

109.55 


0 . 000 
0*000 


1.839163 
7.333273 


2.064984 

7 * 620061 




cons 


4 


在图 9.4 中，尽管 rreg 取得的 y 截距过低，其斜率却与 OLS 线和真实模型保持平 

行。其实，由于受特异值影响较少， rreg 的斜率 (1.95) 更接近于真实斜率 (2), 并且其 
标准误也比 regress 结果小得多。这就表明，在使用 rreg 或类似估计方法于偏态误 

差数据时要有所权 衡:在 y 截晖估计上存在有偏风险，但是回归系数估计可望无偏、并相 
对更精确。在许多研究场合，斜率比截距更有意义，因此这种得失是值得的。此外，稳健 
的 t 检验和 F 检验中并不需要假定正态误差，这与 OLS 估计中有所不同。 

图 9.4 




true model 

OLS regression (regress) 
robust regression (rreg) 


Normal X 


穩健的方差分析 


一旦方差分析模型改用回归形式， rreg 还能用于稳健的方差分析或协方差分析。 
我们用某校教师工资数据 faculty . dta 来加以示范。 

教师工资是随职称而提高的。在这个数据中，男性有更高的平均工资 水平： 

常规 ( OLS ) 的方差分析表明，职称 rank 与性别 gender 都对工资有显著影响。 

但是工资并不是正态分布，并且高级职称平均工资反映出可能有特异值影响，即有 
少数人工资极高。假如我们想要通过稳健的方差分析来检查这些结果。我们需要 

与 gender 的相应效应编码 ( effect - coding ) 变量,这一数据也已经包 括了： 


rank 














byte 

byte 

byte 

byte 

byte 

float 


Academic rank 

Gender (dummy variable) 

Gender (effect coded) 

Assoc Professor (effect coded) 
Full Professor (effect coded) 
Annual salary 


rank 

sex 


rank 

gender 

female 

assoc 

full 

pay 








Sorted by 


table gender rank f contents(mean pay) 


Gender | 

(dummy 
variable) I 


Academic rank 

Assoc 


Assist 


Full 


29280 38622.22 52084,9 

47190 


Male I 

Female I 28711.04 38019.05 


p y rani: gender rank*gender 


anova 


Number of obs 
Root MSE 


226 


R-squared 

Adj R-squared 


0.7305 
0.7244 




5108.21 




Source | Partial SS 


df 


MS 


F 


Prob > F 


Model I 1 *5560e+10 


5 3.1120e+09 


119.26 


0.0000 


rank 

gender 

rank*gender 


1 • 6124e+09 
127361829 

87997720.1 


2 3.8062e+09 

1 127361829 

2 43998860.1 


145.87 

4.88 

1.69 


0.0000 
0 * 0282 
0 - 1876 


Residual | 5.7406e + 09 220 26093824.5 


Total I 2,13 00e+10 225 94668810,3 


tabulate gender f 

Gender 

(dummy | Gender (effect coded) 
variable) 


—1 


Total 


Male 

Female 


149 


0 


149 


0 


77 


77 


Total 


149 


77 [ 


226 


isplay 

ormat 


value 

label 


variable label 


storage 

variable name type 
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Contains data from C : \data\faculty*dta 
obs 

var s 
size 


226 


College faculty salarxes 
17 Jul 2005 09:32 


2 938 <99,9% of memory free) 


o 


9 9 9 5 5 

o o o o o 


8 8 8 8 8 9 

% % % % % % 
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tabulate rank assoc 


Academic | Assoc Professor (effect coded) 

rank | 


0 


Total 


64 


0 


64 


Assist 
Assoc I 
Full I 


0 


105 I 


0 


105 


57 


0 


0 


57 


Total 


64 


57 


105 I 


226 


tab rank full 


Academic I Full Professor (effect coded) 

rank | 


0 


Total 


Assist I 
Assoc I 
Full I 


64 


0 


64 


0 


105 


105 


0 


0 


57 


57 


Total 


64 


105 


57 I 

如果 faculty.dta 中并没有这些效应编码变量（如: fei 7? a _ Ze 、 assoc 和 full ) ， 我 

们可以根据 gender 和 rank 的信息用一系列 generate 和 replace 命令来建立。另 

_ 

夕卜，我们还需要建立两个交互项 （ interaction terms ) 来代表女性副教授和女性正 

教授： 


226 


generate femasaoc = femal ❹ 1 ^ assoc 
generate femfull = female^full 


男性和助理教授在这个例子中都属于“省略类型”。现在我们就可以用回归来完成 
以前所作的方差分 析了： 


regress pay assoc full female femassoc femfull 


Source | 


SS 


df 


MS 


Number of obs 

F( 5, 

Prob > F 

R-squared 
Adj R-squared 
Root MSE 


226 




220 ) 


119.26 
0.0000 
0.7305 

0.7244 
5108.2 




Model 
Residual | 


1.5560e + 10 
5.7406e+09 


5 3.1120e + 09 

220 26093824.5 






Total I 2.1300e+10 225 94668810.3 




pay I 


Coef 


Std. Err 


t 


P> I t 


[95% Conf - Interval: 


-1735 * 722 

9107 _ 957 
-1913,199 
-362.2359 
-2981.236 
38082.51 


-663.8995 
10652.92 
-1011.174 
709.5864 

-1436.277 

38984*53 


543.8499 
783 * 9227 
457.6938 
543.8499 
783.9227 

457.6938 


assoc 

full 

female 

femassoc 

femfull 

cons 


test assoc full 


(1) assoc 
( 2) full 


0 . 0 




0.0 




F( 2 , 220) 

Prob > F 


145 I 87 
0 • 0000 




9 8 3 9 9 6 
2 8 8 0 15 
2,448 • 
9 7 1 - 6 6 


0 2 0 7 0 9 
4 11113 


2 0 2 9 6 0 
2 0 0 10 0 


2 9 10 3 8 
2 5 2 3 8 1 













Pr ob > F 






4,88 
0.0232 


39091.77 


1218.588 

8463.767 

1509*394 

705*1587 

2214,378 

37571.97 










315.6463 
9765.296 
749.4949 
197*7833 
-913,348 
38331.87 








0.492 

0,000 

0-053 

0.666 

0，168 

0*000 


assoc 

full 

female 

femassoc 
f emf ull 

cons 


0.0 


(1) femassoc 
( 2) femfull 


0.0 


te t femassoc femfull 
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[ 95% Conf, Interval] 


pay 


Coef 


Std, Err 


P> I t 


t 


226 


Number of obs 
F ( 5, 

Prob > F 


Robust regression estimates 


220 ) 


138.25 
0 , 0000 




full fBmal fBmASSOC r emf ull f nolo 


rreg p y 


assoc 


预测值（即平均数）、#和^检验的结果并不取决于我们在回归中省略了哪个类别， 
因为所谓的“省略类别”，男性与助理教授，在回归并没有真的省略。它们的信息暗含于 
所包括的类 别中： 即如果一个教师不是女的，那么他就一定是男的，以此类推 

为了完成稳健的方差分析，就应用 rreg 于这个 模型： 


o 


执行 regress 之后再执行适当的 test 命令就能取得与我们以刖 anova 同样的 
i ? 2 和 P 检验结果，这里回归预测值就等于平均工资 


o 


• predict predpayl 

{option xb assumed; fitted values) 

label variable predpayl ”OLS predicted salary 

• table gender rank, contents(mean predpayl ) 


n 


Gender | 

(dummy I 

variable) | 


Academic rank 

Assoc 


Full 


Assist 


29280 38622 _ 22 52084 * 9 

47190 


Male [ 

Female t 28711.04 38019.05 


L 69 
0 • 1876 


F ( 2 f 220) 

Prob > F 







test assoc full 


( 1 ) 


0 ■ 0 


assoc 

( 2) full =0.0 


F( 2, 220) 

Prob > F 


182,67 
0 . 0000 




6 3 5 5 5 
5 8 9 2 1 

3 7 8 


9 


2 6 0 
- 6 


4 0 ■ 

* o 8 
8 10 1 
5 111 


7 o 


8 


3 


9 9 4 3 8 

6 7 9 4-3 


4 


0 4 10 19 

I 9 


8 8 8 8 8 8 
8 4-7847 


5 0 7 5 0 7 
14 5 14 5 


8 0 5 8 0 5 


5 6 8 5 6 8 
4 6 3 4 6 3 
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test fema 1 e 


(l) 


female 


0.0 




, 220 ) 
Prob > F 


F ( 


3.73 
0.0532 


test 坩 assoc fBmfull 


(1) femassoc = 0,0 

( 2} femfull =0.0 


F ( 2 t 220) 

Prob > F 


1.16 
0.3144 


rreg 削弱了几个特异值的权数，主要是那些高薪的男性正教授。要看稳健平均数， 
就再次使用预 测值： 


_ predict predpay2 

(option xb assumed; fitted values) 

label variabl 


predpa.y2 "Robust predicted salary 
table g&nder ra.nk f contents (mean prBdpay2) 


If 


Gender 
(dummy | 

variable) [ 


Academic rank 

Assoc 


Assist 


Full 


Male I 28916,15 38567.93 49760,01 

Female | 28848.29 37464.51 46434,32 


要 是我们 看稳健平均数，那么在助理教授和正教授内的男女差 异显得 较小，尽管并 
没有完全消失。但是，副教授内的性别差异却有少许扩大。 

辅以效应编码和适当的交互项， regress 可以准确重现方差分析结果。 rreg 也能 
完成类似的分析，但检验的是稳健平均数（而不是 regress 和 anova 用的常规平均 

数）之间的差异。以类似的工作方式， qreg 提供了第三种可能来检验中位数之间的差 
异。为了比较，下面来进行教师工资分析的分位数 回归： 


qxeg pay assoc full female femAssoc femfull 


nolog 


Median regression 


Number of obs 


226 


Raw sum of deviations 1738010 (about 37360) 
Min sum of deviations 


798870 


Pseudo R2 


0.5404 


pay 


Coef 


Std * Err 


t 


P> I t I 


[95% Conf■ Interval] 




-760 
10335 
-623,3333 
-156.6667 
-691.6667 

38300 


assoc 

full 

female 

femassoc 
femfull 

cons I 


440.1693 

615.7735 

365.1262 
440 . 1693 

615.7735 
365.1262 


-1.73 

16.78 

-1.71 

-0.36 
-1 . 12 
104*90 


0.086 
0.000 
0.089 
0.722 
0.263 
0 _ 000 


-1627,488 
9121_ 43 
-1342.926 
- 1024,155 

-1905.236 

37580.41 


107,4881 

11548,57 

96*2594 
710.8214 
521.9031 
39019.59 


test assoc full 


( 1 ) 

( 2) full = 0.0 


0.0 


assoc 


F ( 2, 220) 

Prob > F 


208,94 
0 . 0000 
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稳健回 


test female 


0,0 


female 


( 1 ) 




2 * 91 

0 -0892 


F ( 1, 220) 

Prob > F 


test femassoc femfull 


0 * 0 


femassoc 


( 1 ) 

( 2) femfull 


0,0 




1 . 60 
0 *2039 


F ( 2, 220) 

Prob > F 


• predict predpay3 

(option xb assumed; fitted values) 


label variable predpay3 "Median predicted salary 
table gender rank f contents(mean predpay3) 


Gender 
(dummy 
variable) | Assist 


Academic rank 

Assoc 


Full 


49950 

47320 


38320 

36760 


Male I 28500 
Female I 28950 


由分位数回归得到的预测值与各交互分组中的中位工资数非常接近，因为我们可以 


直接核实 


table gender rank, contents(median pay ) 


Gender 
(dummy 
variable) I Assist 


Academic rank 

Assoc 


Full 


49950 

46530 


38320 

36590 


Male I 28500 
Female | 28950 


于是， qreg 使我们像多因素方差分析或协方差分析那样来拟合模型，但是却通过 
0.5 分位数或近似中位数的方式，而不是常规的平均数方式。在理论上，0 . 5 分位数和 
中位数是相同的。但是在实际中，分位数是用实际样本数值近似计算的，而当一个分组 
包括了偶数观测时，中位数却是通过位于最中间的两个值取平均值得到。所以，样本中 
的中位数和0 .5 分位数可能有点差别，但这种差别不至于影响到模型解释。 


对 rreg 和 greg 的更多左用 


诊断统计与绘图（第7章）和非线性转换（第8章）扩展了稳健程序的用途，就像它 
们在常规回归时所做的那样。通过转换变量， rreg 或 qreg 也能拟合曲线回归模型。 
rreg 还能稳健地完成更简单的分析方法。要计算某一个变量平均数的 90% 置信区间， 

我们既可以键入通常置信区间的命令 

• ci y r level (90) 


Cl 
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也可以通过做没有 X 变量的回归来取得同样的平均数和置信 区间： 

y f level (90) 

同样，我们还能取得稳健平均数及其 90 %置信 区间： 

p 

rreg y, level (90) 

qreg 也能以同样方式使用，但是要记住上节的提示，由 qreg 求出的0 .5 分位数可能与 

样本中位数有所不同。在以上这些命令中，选项 level ( )指定所要求的置信度。如果 
我们省略这个选项， Stata 就会自动显示 95 % 置信区间。 

要想比较两组的平均数，典型的作法是应用双样本 t 检验 （ ttest ) 或单因素方差分 

)。如前所示,我们可以用回归来完成等价的检验（得到相同的 
和^统计量）。比如，将测量变量对代表两种类别的虚拟变量（这里称为 group ) 回归： 


regre 




析 （ oneway 或 


anova 


t 


regress y group 


需要这种检验的稳健版本，可以键人以下命令 


rreg y group 


在默认状态， qreg 所完成的是中位数回归，但是它实际上是一个更综合的工具。它 

并不只限于中位数 (0 . 5 分位数），还能够对 y 的任意分位数来拟合线性模型。比如，以 
下命令就是分析 y 的第一四分位 （0. 2 5分位数)是如何随 x 变化的。 

• qreg y x, quant(. 25 ) 

假如误差方差相同，那么0 . 25 和0 . 75 分位数线的斜率应该大体相同。因此， qreg 可 
以用于检验异方差性问题或种种非线性问题。 


方差的穗健姑计一1 


数据存在特异值倾向或非正态误差时， rreg 与 qreg 都比 OLS 方法 （regress 和 

) 的效果好。然而，所有这些程序都共享同样的假定，即误差服从独立同分布。要 
是误差分布在不同 X 值上或不同案例之间有变化，那么由 

及 qreg 计算的标准误都可能会低估真正的样本与样本之间的变异，求出一个不切实际 
的狭窄的置信区间。 

regress 和一些其他模型拟合命令（然而不包括 rreg 或 qreg ) 都有一个选项，可 

以不依赖于那些强硬的、有时是不合理的误差独立、同分布的假定，估计出标准误。这一 
选项应用了由 Huber .White 以及其他人分别独立推导出的一个方法，这一方法有时被 
称为方差的三明治估计 （sandwich estimator )。 一个人造数据 （ jroi>ust2 .dta) 提 

供了第一个例子。 

当我们将列对 X 回归，就会得到显著的正斜率。然而，散点图却表明了异方差性的 
存在（图 9.51 回归线周围的变异随着 X 加大。因为误差并不是在所有 

布，由 regress 输岀的标准误、置信区间和统计检验都是靠不住的。 rreg 或 qreg 也 
同样面对这个问题。 


anova 


rreg 以 


anova 、 regress 


值上相同分 


x 


float 

float 

float 


float % 9 -Og 


%9 ■ Og 
% 9 * 0 g 


byte 

float 


float % 9 * Og 


float % 9.Og 


%9 • Og 
% 9.0 g 


float 

float 


%9 - Og 


float 


%9-0q 


float 


Standard normal x 
Standard normal errors 

10 + 2 *x + e5 (normal 

errors) 

Contaminated normal errors : 

95% N (0,1) , 5% (N{0,10) 

=10 + 2 + e6 

(Contaminated normal errors) 

Centered chi-square(1) 

十 e7 (skewed 


y5 


d 


y6 


errors 


10 十 2 


女 


y7 


X 


errors) 

Normal errors 

increases with x 
=10 + 2 * x + c 8 
(heteroskedasticity) 


variance 


r 


y8 


Normal errors, variance 
increases with x, mean & 
variance increase with cluster 

=10 + 2*x + e9 

(heteroskedasticity & 
correlated errors) 


y9 


X 


e5 


y5 


e 6 


y6 


e7 


y7 


e8 


y8 


group 


e9 


y9 


Sorted by 


regress y 


500 


Number of obs 

4 98 ) 


MS 


df 


SS 


Source 




133.96 
0 - 0000 
0.2120 
0.2104 
3* 4639 


F( 


Prob > F 
R-squared 
Adj R-squared 
Root MSE 


1 1607 * 35658 

498 XI * 9983767 


Model I 1607.35658 
Residual I 5975.19162 








7582 *5482 499 15.1954874 


Total 


95% Conf 


nterva 
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from C:\data\robust2 *dta 


Contains data 

obs : 


Robust regression -examples 2 

(artificial data) 

17 Jul 2005 09:03 


500 


12 


var s 


24 500 (99. 9% of memory free) 


size 


value 

label 


i splay 

ormat 


storage 

variable name type 


variable labe1 





















2.127813 
10.3708 


510251 

762047 




Std 


Coef 


0.000 
0.000 


1571612 
154919 


11.57 

64 * 98 


1.819032 

10.06642 


x 


_ 


cons 




® 9.5 






A 


身 _ 




* 


4> 


礬 


A 






9 嫌 


ft « 


fi 




« 


* 




* 














* 




* 秦 




ft 


彙 




« 


场. 




9 






* 




m 


需 


螫 


9 


% 




癬 




9 




0 


2 


-2 


4 


Standaitl normal Jt 


g gg 

o o o 


9 9 9 


% % % 

























robu t 


regre 


y 


Regression with robust standard 


Number of obs 
F( l f 

Prob > F 
R - squared 
Root MSE 


errors 




4 98) 
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对这一 OLS 回归的更可信的标准误和置信区间可以用 robust 选项来 得到: 


Robust 
Std. Err 


y8 


Coef 


P> I t I 


[ 95 % Conf. Interval] 


1 . 819032 
10.06642 


,1987122 
.1561846 


9 *15 
64.45 


0.000 

0.000 


1.428614 
9 -759561 


2.209449 
10.37328 


cons 


尽管拟合的模型未变，斜率的稳健标准误比前面的非稳健估计大了 27% (0.199 对比 

0.1 57 )。 用了 robust 选项后，回归不再输出通常的方差分析表，因为这些已经不再具 
有通常的解释意义。 

这些稳健标准误估计背后的原理在《用户指南》中有所解释。简而言之，我们放弃了 
估计下列模型的真实总体参数 （) 的经典 目标： 


y 1 = A) + 成 x i 


作为较低目标，我们追求单纯地估计出 jb 系数在样本与样本之间变异性。如果我们可以 
抽出许多随机样本并且重复地应用 OLS 估计，最后可以计算出以下模型中的 b 值： 


Yi = b 0 b x x 


我们并不假定这些估计将收敛于某个“真实”的总体参数。所以，用稳健标准误形成的 
置信区间并不适用那种以特定概率（通过重复抽样）将总体参数包括在内的经典解释意 
义。相反，稳健置信区间有特定概率(通过重复抽样）将 i ) 包括在内，而 b 定义为样本 

估计的收敛值。于是,我们有得有失，一方面放松了误差同分布的假定，另一方面只能满 
足于一个不那么深刻的结论。 


b 


方差的穗健诂计 


另一种稳健方差的选项 cluster 使我们能以一种有限的方式放松误差独立的假 
定，这就是当误差在数据分组或类别之内相关的时候。数据 attract . dta 可以用于示 
范这种情况，它描述了一个大学生的社会实验。在这个实验中，51名大学生被分别要求 
对一些不认识的男人和女人的照片进行魅力打分，尺度为从1到10。这种打分依次由 
每个学生重复，给他们同样的照片但是随机改变照片的顺序。这个实验在晚间社会活动 
时进行了 4 次。变量 rate / naie 是每个参加者在一次试验中对所有男人照片打分的平 
均数， ratefem 是对所有女人照片打分的平均数。 gender 是打分者自己的性别，而 
bac 是当时用呼吸分析仪测出打分者当时的血液酒精含量。 

尽管这个数据包含了 20 4 个观测，但是它们只代表 S 1 个参加者。所以有理由认为 
扰动项（打分中未测量的影响）在每个人的几次重复试验中相关。将每个参加者的四次 

打分视为一个类群，应该有助于得到更符合实际的标准误估计。在回归命令中附加上选 

项 cluster ( id ) ，如下所示，便能够取得贯穿由 id (即个人识别码）定义的类群的稳健 
标准误。 
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byte 

byte 

float 

float 

byte 

float 

float 

float 


Participant number 
Participant gender (female) 
Blood alchohol content 

gender*bac interaction 
Relationship status (single) 
Days drinking in previous 

Rated attractiveness of females 
Rated attractiveness of males 


week 


sex 


rel 


id 


gender 

bac 

genbac 
rels tat 
drinkfrq 
ratef ern 
ratemale 


id 


Sorted by 


ratefem bac gender genbac, 1 ter(id) 


regres 


204 


Number of obs 
F ( 3 r 

Prob > F 
R-squared 
Root MSE 


with robust standard errors 


Regression 


7 ,1b 

0.0002 
0 * 1264 
1 .1219 


50) 






Number of clusters (id) 


51 




value 

lajDel 


display 

format 


storage 

variable name type 


variable label 
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9 稳健回归 


from C : \data\attract - dta 

204 


Contains data 
obs : 


Perceived attractiveness and 

drinking (D, C. Hamilton 2003) 

18 Jul 2005 17:27 


vars ; 

size: 


5 508 (99. 9% of memory free) 


Robust 
Std. Err 


[95% Conf. Interval] 


P> I t 


t 


Coef 


ratefem 


_ 


4 - 612729 
0504741 
3* 638967 
6.94811 


1 . 180753 

-1.409504 
-3.222859 
6.025423 


0.001 
0.036 
0.904 
0.000 


3.39 
-2 • 16 
0 . 12 
28.24 


8543378 
3383096 
1.703146 
229689 


2,896741 
7299888 
2080538 

6.4 8 67 67 


bac I 

gender I 
genbac [ 
cons I 


鑫 




■ 




m 


m 


* 


血液酒精度 （ bac *) 存在显著的正效 应：当 bac 升高时，对女人照片的魅力打分也会 
提高。性别（女性）存在负 效应: 相比男学生，女学生倾向于对女人照片的魅力分打得低 
(约低 0.73 分）。性别与血液酒精度的交互项 erer ^ ac 影响很小 （0 . 2 1)。这一截距和 

斜率都受虚拟变量影响的回归模型的通用表达式为： 

预测值： ratefem = 6 .49 +2 .90 jbac -0 .7 3 gender + 0 .21 genbac 

亦可简化为对男生的预测 （ =0 ) ，有： 

预 测值： ratefem = 6 *49 +2 .90 bac - (0 .73 x 0 ) + (0*21 xO x bac ) 

二 6 .49 +2 . 90 bac 

还可化为对女生的预测 （gender =1) ，有： 

预 测值： ratefem 二 6 -49 +2 . 90 bac -(0 .73 xl) + (0 .21 xl xbac ) 

二 6 -49+2 .SQbac -0 .73 +0 -21 x bac 

= 5 .76 +3 .lljbac 

我们看到酒精对男生和女生的影响存在差别，对男生的影响 （ 2 . 9 0) 和对女生的影响 
( 3 .1 1 ) 之间的差别来自于交互项系数0 .2 1 

对男人照片的魅力打分受到血液酒精度的正影响。性别对男人照片打分有很大影 
响: 女生倾向于给男人照片打岀比男生高得多的分。在为男人照片打分时，性别和酒精 
度交互项的影响巨大 （- 4 .3 6 ) ，尽管它并未达到0 .05 显著水平。 


o 


ratemal bac gender genbac f cluster(id) 


regres 






oooooooo 


99999999 

o\o % % % % % % 
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Regression with robust standard errors 


Number of obs 
F( 3 r 
Prob > F 
R-squared 
Root MSE 


201 




50) 


10 - 96 
0,0000 
0,3516 

1-3931 




Number of clusters (id) 


51 






Robust 
Std• Err 


ratemale 


Coef 


P> I t I 


[95% Conf. Interval] 


bac I 

gender | 
genbac | 
cons I 


4*246042 

2.443216 
-4.364301 

3 . 628043 


2 - 261792 

4529047 

3 • 573689 
2504253 


1,88 
5 I 39 
■ 1.22 
14.49 


0,066 
0.000 
0 • 228 
0,000 


2969004 
1.53353 

"11•54227 
3.125049 


8.788985 

3.352902 
2.813663 

4_131037 




« 


* 


* 


男生对男人照片打分的回归方程可 化为： 

预 测值： ratemale =3.63 ^ A . 2 hbac + (2.44 xO ) - (4*36 xO x bac ) 

= 3,63 + 4,2 5 jbac 


而女生对男人照片打分的回归方程可化为 

预测值 


ratemale =3.63 +4.25 jbac + (2*44 xl ) -(4-36 xl x bac ) 

6.07 - O.lljbac 

酒精对男生和女生的影响有很大差别，对男生的的影响较大 （4.25) ，而对女生没什么影 
响（ - o . il )， 这种差距正好等于交互效应系数 

酒精度提高时，男生对男人照片打的分迅速飙升，而女生在对男人照片打分时则很稳定。 

图 9 . 6 将这些结果绘在一起。我们可以看到，酒精度对打分的正影响贯穿于所有子 

图中，只是当女生为男人打分时除外。这些图形还显示出其他的性别差异，包括男生有 
较高的血液酒精度测量值。 




在这个样本中，当打分者的血液 


-4.36 


0 


图 9.6 
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A ^ A 


用 regress 加 robust 选项可以进行 OLS 回归并估计出稳健标准误，不要将这种 

方法与用 rreg 所做的稳健回归相混淆。尽管这两者的称呼很类似，但它们是两种并无 
联系的程序，而且解决的是不同的问题。 







logistic IMl!B 


第 5 章至第 9 章介绍的回归和方差分析方法都要求因变量（即 y 变量）是测量水平 
的。 Stata 还提供了一整套对分类变量、序次变量以及删截的因变量的建模方法。下面 
列出一些有关命令的清单(如需更详细的说明，可键入 help 命令查 询）： 

二项回归 （binomial regression )，属一般化线性模型 

I 

(generalized linear models) 0 

对分组 （ 或分块 ， blocked ) 数据的 logit 估计方法 （ logit : 

estimation ) 。 

对分组（或分块）数据的 probit 估计方法 （probit estimation ) 0 
条件固定效应的 logistic 回归 （conditional fixed-effects 

logistic regression) 0 

补充双对数估计方法 （complementary log-log estimation) 
删截正 态回归 （ censored-normal regression) ，在假定 y 服从 

高斯分布但在某一点 ( 案例之间不同）被删截时使用。 

用于定义、列出和取消线性约束条件。 

提供概率变化(而不是系数）的 probit 回归。 

一般化线性模型 （generalized linear models ) ，包括 了 

logistic 、 probit 或补充双对数等连接方式，允许反应变量为二分 

变量或与分组成比例的变量。 

对分组数据的 logit 回归 （logit regression for grouped 

data)o 

对分组数据的 probit 回归 （probit regression for grouped 

data)o 

带选择的 probit 估计 （probit estimation with selection) 0 
异方差的 probit 估计 （heteroskedastic probit estimation) 0 

区间回归 （ interval regression ) ，其中 y 可以为点数据、区间数 

据以及左删截或右删截数据。 

logistic 回归 （logistic regression ) ，输出优势比 （ odds 
ratios) 结果 。 

logistic 回归，与 logistic 类似，但输出回归系数。 

多项 logistic 回归 （multinomial logistic regression ) ，用 

于多分类的 y 变量。 


binreg 


blogxt 


bprobit 

clogit 


cloglog 


o 


cnreg 


constraint 

dprobit 

glm 


glogit 


gprobxt 


heckprob 

hetprob 

intreg 


logistic 


logit 

mlogit 
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嵌套的 logit 估计 （nested logit estimation) 

序次 logistic 回归 （logistic regression with ordinal y 

variable) ，用于序次的 y 变量。 

序次 probit 回归 （probit regression with ordinal y 

variable) 0 

probit 回归 （probit regression ) ，用于二分类的 y 变量。 

等级排序的 logit 模型 （ rank-ordered logit model ) ，用于等级 
因变量 （ 也称 Plackett-Luce 模型、分解 logit 模型 （exploded 
logit model ) 或基于选择的联合分析 （ choice-based conjoint 

analysis)) 0 

偏态 probit 估计 （skewed probit estimation) 0 

调查数据版的 logistic 回归，用于复杂调查数据。在调查数据版 
( svy ) 中还有许多其他分类变量模型的命令。 

tobit 回归 （tobit regression ) ，在假定 y 服从高斯分布但在已 
知固定点被删截时使用（这类的一般化模型参见 help cnreg ) 0 
随机效应与总体平均的补充双对数模型 （ Random-effects and 

population-averaged cloglog models ) 0 还有面板 （ panel ) 

数据版 （xt ) 的 logit 和 probit 模型，以及总体平均的一般化线 

性模型，参见 help xtgee 。 

在所有模型拟合命令执行之后，都可以用 predict 命令来计算预测值或概率。 

predict 命令还可以取得适当的诊断统计，比如，那些由 Hosmer 和 Lemeshow 

( 2 000)所描述的关于 logistic 回归的诊断统计。特定的 predict 选项的功能依赖 

于刚刚拟合的模型类型。还有一个不同的拟合后续命令 predictnl 能取得非线性预 
测值及其相应置信区间（参见 help predictnl )。 

下一节将示范其中几个命令的使用。对分类因变量建模的大多数方法可以在以下 
菜单中 找到： 

Statistics-Binary outcomes 
Statistics-Ordinal outcomes 
Statistics-Categorical outcomes 
Statistics ^Generalized linear models ( GLM ) 

Statistics-Longitudinal /£>anel data 

Statistics-Ijinear iregiressioii sind srelsted—CensosTed iregiress 土 on 


nlogit 

ologit 


O 


opr obit 


probit 

rologit 


scobit 

svy ： logit 


tobit 


xtcloglog 


序次结果 
分类结果 
一 般化线性模型 


纵贯及面板数据 


_ 删截回归 

在以下命令示范这一节之后，本章的其余部分将集中介绍 logit 或 logistic 回 

我们将逐步介绍对二分因变量、序次因变量和多分类因变量的 


logit 模型 
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命令示 


2 x3 


• logistic y 

对 I 0 ，11 编码变量 y 执行 logistic 回归，自变量为 xl 。自变量的影响是以优 
势比 （ odds ratio) 形式输出的。与其紧密相连的命令： 

• logit y 

执行的是同样的分析，只是输出的是 logit 模型的回归系数。 logistic 和 logit 所 

拟合的是同一个模型，因此后续得到的预测值或诊断检验都是相同的。 

• lfit 


2 x2 x3 


提供对所拟合的 logistic 模型的皮尔森卡方拟合优度检验 （Pearson chi-squared 

goodness-of-fit test ):用 y = 1 情况的观测频数对比期望频数，按协变量 

(covariate , Sp x 变量）的模式定义交互单元。当 x 的模式数目很大时，我们可能想要 

根据其估计概率将它们分组。命令 lfit ， group(lO) 将按10个大致等规模分组进行 




lstat 


提供分类统计和分类表。当分析点为分类情况时，命令 lstat 、 lroc 、 lsens (参见下 
面）都尤其重要。这些命令都是参照于前面刚刚拟合的 logistic 模型。 

, lroc 

画出接收器运行特征 （ receiver operating characteristic , ROC) 的曲线制图， 

并计算这一曲线下的面积。 

• lsens 

提供敏感性 （sensitivity ) 和特异性 （specificity ) 分别对概率分割点 

(probability cutoff) 的制图。 

• predict phat 

仓 ij 建一个新变量（这里任意命名为 phat ) ，等于最近一次 logistic 模型基础上 y = 1 
的预测概率。 

• predict dX2 , dx2 

形成一个新变量（任意命名为出 G ) ，记录诊断性统计量，测量相对最近一次 logistic 

分析的皮尔森卡方变化量。 

mlogit y xl x2 x3 f base(3) rrr nolog 

将多分类变量 y 与 3 个 x 变量做多项 logistic 回归。选项 base( 3 ) 指定 y = 3 这类 
作为比较的基准类别;选项 

替回归系数 输出； 选项 nolog 取消了迭代过程中对数似然值的显示。 

_ predict P2 f outcome(2 > 

新建一个变量（任意命名为 P2 ) ，基于最近一次 mlogit 分析，记录 y =2 的预测概率 o 

. glm 

采用一般化线性模型来执行 logistic 回归，并且应用的是列表数据而不是个体观测数 


要求用相对风险比 （ relative risk ratios) 输岀代 


rrr 


1 x2 x3 f family(binomial trials) eform 


success 



s t r 55 


%8 . Og 
% 8 . Og 

%8 • Og 

%8 . Og 
% 8 . Og 
%8 , Og 
% 9,0 g 


f lbl 


FIight 

Month of launch 
Day of launch 
Year of launch 

Thermal distress incidents 
Joint temperature, degrees F 
Damage severity index (Tufte 

1997) 

Comments (Tufte 1997) 


dlbl 


%55s 


flight 

month 

day 

year 

distress 

temp 

damage 


comments 


Sorted by: 


本章检查了 


数据中的 3 个 变量： 

“热损事件 ” （thermal distress inc idents ) 的数量，这些事件是因 

为热气泄漏或烧坏了这次航行助推火箭的结点密封。助推结点密封的 

烧穿使挑战者号陷人灾难。许多以前的航行也经历过不太严重的损坏, 
所以早就知道结点密封是危险的可能来源。 

在发射时间对结点的计算温度，以华氏度为单位。温度在很大程度上受 

天气影响。橡胶的0形环密封的助推火箭结点在很冷时会变得僵硬。 

日期，测量方法是从1 96 0年1月1日（一个指定的起始点）起的消逝天 
数。 date 是用 mdy 函数由发射的月、日、年 （ month - day - year ) 转换 

成的消逝天数（参见 help dates ) : 

发射日期很重要，因为航天项目进程中的几个变化可能造成较大风险。助推火箭外 
层很薄以减少重量、增加有效载荷，于是结点密封就得能经受高压测试。此外，航天飞机 
回收再用也导致其各部分的老化。所以我们也许会问，助推结点损坏（一处或多处受损 


shuttle.dta 


distress 


temp 


date 
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据。变量 success 是所关注结果发生的频数， trial 是对自变量 xl 、冗 、 x 3 每种组合 
所含的频数。也就是说 ， success / trial 就是某一结果（比如，患者痊愈）发生次数所 

占的比例。选项 eform 要求输出优势比（指数幂形式），而不是 logit 系数。 

cnreg y xl x2 x3 r censored( csn) 

将测量变量 y 与 3 个 x 自变量做删截正态回归。如果一个观测案例的 y 真值由于左删 

截或右删截而未知，在这一回归中它就由离其删截时最近的一个 y 值来取代。删截变量 
cen 是一个编码为1 -1 ，0 ，1 1的标识 （ indicator ) ，编码值分别表示这个观测的 y 值 

是左删截、无删截、还是右删截。 


航天飞机教据 


本章的主要例子是美国航天飞机的前 25 次飞行的数据 shuttle.dta 0 这些数据 
包含的证据表明，如果这些数据早些得到适当的分析，就能说服美国航天署官员在1985 
年停止挑战者号的最后一次致命的飞行（即它的第25次航天飞行，派遣号为 
51~ L ) o 这些数据来自于总统委员会对航天飞机挑战者号事故的报告 （Report of the 

the Space Shuttle Challenger Accident 

1986), 以及 Tuf te 的著作 （ l" 7 ) 。 Tuf te 的书中包括了对数据与分析方面的卓越讨 
论。他关于航天飞行细节的评论也作为字符串变量包括在这些数据中。 


STS 


Presidential Commission 


on 


Contains data from C : \data\shuttle - dta 

obs 

var s 

size 


25 


First 25 space shuttle flights 
20 Jul 2005 10:40 


X 675 (99,9% of memory free) 


storage display 
type format 


value 

label 


variable name 


variable label 


t t t t t t 
y y y p yy 
b b b i bbb 





53 

67 

75 
70 

81 I 

76 I 
79 

75 I 

76 I 


3 plus 

3 plus 

3 plus 
3 plus 

1 or 2 
1 or 2 
none 

3 plus 

1 or 2 


2 4 


12 


29 


17 


29 


27 


3 


30 


26 


4 


4 


10 


10 


11 


STS_51-C 

STS:51-D 

I STS=51-B 
I STS 二 51-G 
STS:51-F 
STS:51-I 
STS=51-J 
I STS=61-A 
I STS~61-B 


57 

63 

70 

78 

67 


1 or 2 

3 plus 

3 plus 
none 

none 


8799 

8862 

9008 

9044 

9078 


3 


30 


8 


2 


4 


8 


10 


11 


STS 一 41'B 
STS:41-C 

STS 〕 1-D 

STS:41-G 
STS—51-A 


8494 

8569 

8642 

8732 


Thermal 

distress 

incidents 


none | 
1 or 2 I 

3 plus 


Total 


y (iRO/i th f y f year ) 

p 

label variable d t "Date (days 

distress 是个有标签的数字编码 变量： 

■ 

tabul t distress 


generate 


t 




1 / 1 / 60 ) 


VI 


since 


24 


STS61-C 

STS+51-L 


12 1986 

28 1986 


9508 

9524 


3 plus 


58 I 
31 I 


25 


67 

72 I 

73 ! 
70 


1 or 2 


none 


none 


none 


6 


11 


STS-6 

STS-7 
STS-8 
STS - 9 


通常， tabulate 会显示标签，但是选项 nolabel 揭示出，数字码0 无”，1 =“1 次或 

2次”，2 =“3次及以上 

tabulate distress , nolabel 


ff 


o 


Thermal 

distress 

incidents 


Freq 


Percent 


Cum 


9 


39, 13 

26,09 

34.78 


39.13 
65,22 
100.00 


6 


2 I 


8 


Total I 


23 


100.00 


6 


7 


8 
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事件）的可能性是否随发射日期而增加？ 

_ list flxght ~ temp f epby ( year ) 


date 


distress 


temp 


flight 


month 


day 


year 


7772 

7986 


66 

70 


4 


12 1981 

12 1981 


STS-1 

STS-2 


none 
1 or 2 


2 


11 


22 1982 

27 1982 

1982 


8116 

8213 

8350 


69 

80 1 
68 i 


STS-3 

STS-4 

STS-5 


3 


3 


none 


6 


11 


none 














530910741 

535947036 

122233444 

999999999 


555555555 

888888888 

999999999 

T^ - T1 Tx ^ I T—I Tx I — 丄 


4 4 4 4 4 
8 8 8 8 8 
9 9 9 9 9 
1 1 111 


5 6 7 8 9 
1 1 1 1 1 


0 12 3 
2 2 2 2 


0 12 3 4 

- ~ - 1 1 < — I 1 


3 3 3 3 
8 8 8 8 
9 9 9 9 
1~111 1 


4 8 0 8 
13 2 


3 2 0 
12 0 


m 


u 


c 


9 5 0 
3 6 0 


t 


3 9 8 
10 7 


o 


n 


o 


e 


c 


9 6 4 
3 2 3 


o 


r 


o 


e 


p 


9 6 8 


3 


q 


2 


e 


r 


F 
















none 


9 


6 





0 


0 


Iteration 0 : 
Iteration 1 : 
Iteration 2 : 

Iteration 3 : 
Logit estimates 


log likelihood 

log likelihood = 

log likelihood 
log likelihood = -12.991096 


•15.394543 
-13.01923 
-12.991146 






Number of obs 
LR chi2(1) 
Prob > chi2 
Pseudo R2 


Log likelihood 


-12.991096 




Total 


14 


23 


Thermal 
distress 
incidents 


I Any thermal distress 


0 


Total 


Std, Err 


any | 


Coef 


P> I z 


[95% Conf. Interval] 


2 


logit any d t , coef 


我们可以用这些编码来新建一个虚拟变量 any ， 用0代表无损坏，1代表有1处或更多 
损坏 事件： 


• generate any - distress 

(2 missing values generated) 

replace any = 1 if distress — 

(8 real changes made) 

label variable any "Any thermal di tress" 


要想看看都做了些什么， 


tabulate distress any 
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logistic 回归对 any 这种 |0，1 丨二分因变量建模，对一个或更多的 x 变量回归。 

命令 logit 与 regress 及大多数其他模型拟合命令的形式类似，都是将因变量列为第 
一个变量。 


date | 
cons I 


0020907 
-18.13116 


0010703 

9.517217 


1 , 95 

-1. 91 


0 .051 

0.057 


- 6 .93e- 0 6 
-36.78456 


0041884 

5222396 




参 




命 


logit 迭代估计程序将使对数似然函数最大化，正如输出的上部 所示。 在迭代开始 
(Iteration 0 )时，对数似然值 （log likelihood ) 反映了模型中只有截距时的拟合 

状况。而最后一个对数似然值则表示最终模型的拟合 状况： 


[ 10 . 1 ] 


L 二 - 18-131 16 + 0.002 090 7 date 

其中 L 代表损坏发生事件的 logit 预测值，或称为对数发生比 （log odds ) 

L 二 ln [ P ( any 二 1) /P( any 二 0)] 


[ 10 . 2 ] 

输出表的右上部有模型整体卡方 （^ 2 ) 检验 （ 虚无假设即模型中除了截距外的所有 


10 


系数都等于 0) 的结果 


2 


= - 2( In L { - In L f ) 

其中 In L |初始或迭代 0 时（即截距模型）的对数似然值，而 In 1 f 为最终迭代的对数似然 


[10_3] 


X 


1() 【译 注:该 输出表中将整体似然比卡方标注为 LRchi 2( l ), 括号之中数字为卡方分布的自由度。】 












2 S 


U 


r ,—< 


o P 


13 


3 13 1 
2 8 8 6 


• 2 5 
4 0 1 


o o 
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值 0 有 


= - 2[ - 15. 394 543 - ( - 12. 991 096)] 

= 4. 81 

这个较大的卡方值在对应1个自由度（即初始模型与最终模型的复杂性差别）时的概率 
已经足够小 （0.028 3 )，以致本例的虚无假设遭到拒绝。结果表明， date 的确有显著的 

影响 o 


X 


logit 结果输出中还提供了渐近 z ( 标准正态）检验，这种检验不太准确，但是很方 

便。在只有一个自变量时，对这个自变量的 z 检验与模型整体卡方检验是等价的（检验 
的是同一个假设），这与在简单 0 LS 回归时的 t 检验和 F 检验的关系很类似。与 0 LS 不 
同的是， logit 的 z 近似检验和卡方检验有时并不吻合（这里就不同）；而卡方检验具有 
更高的有效性。 

与 Stata 其他最大似然估计程序一样， logit 的输出中提供了一个伪 

( pseudo ) i ? 2 


_ 

% 


pserdo R 2 = 1 - In I. f / In L i 


[10.4] 


对于这个例子有， 


pseudo i? 2 = 1 - ( - 12.991 096) /( - 15.394 543 ) 

二 0.156 1 

尽管它提供了一个便捷方式来描述或比较对同一因变量的不同模型的拟合状况，伪#统 
计量缺乏像 0 LS 回归中真#那样的方差解释意义。 

在执行 logit 以后, predict 命令（不加任何选项）将取得预测 概率： 

Phat =1/(1 

按 date 作图，从图 10.1 中可以看到，这些概率呈一种 S 状的 logistic 曲线。 


；10 ,5 ； 


+ e 


predict Phat 

label variable Phat "Predicted ^ (distress >= 1 )，， 
graph twoway connected Phat date, sort 


图 10.1 


7500 


9500 


Date (days since 1/1/60) 


logit 提供的系数 (0_00 2 OSO 7 ) 描述了 date 对热损事件发生的 logit 转换值即 

对数发生比的影响。每一天的增加都使热损事件对数发生比预测值提高 0.002 090 7。换 
句话说，每一天的增加将使热损发生比的预测值是前一天的 


Q002 090 7 


1.002 092 9 倍，那 


e 



Sensitivity 

Specificity 

Positive predictive value 
Negative predictive value 


False + rate for true 〜 D 
False 


rate for true D 




False + rate for classified 
False 


+ 


rate for classified 






Correctly classified 


any | Odds Ratio 


Std* Err 


P> I 2 


[95% Conf, Interval] 


z 


date 


1 , 002093 


0010725 


1 - 95 0.051 


9999931 


1 _ 004197 


» 




注意，这里的对数似然值和卡方统计量都与前面取得的相同。 logistic 不再提供系 

数 (切 ，而是提供优势比 (Odds Ratio , 即 e fa )。 它的意义是，自变量每增加一个单位时，事 

件 (y = 1 ) 的发生比的变化倍数 ( 如有其他自变量，则以其他自变量保持不变为条件） 

在拟合一个模型以后，我们能通过命令来取得分类表及其有关 统计： 

/ 

■ 1 tat 


O 


Logistic model for any 


True 


Classified 

I 


D 


D 


Total 


12 


4 


16 


2 


5 


Total 


14 


9 


23 


Classified + if predicted Pr(D) >= .5 
True D defined 


as 


234 


应用 STATA 做统计分析 


Q002 090 7 \ 100 


么每 100 天后热损发生比的变化倍数为（ 

自然对数的底。） stata 也可以进行这些计算，只需要调用估计之后内存中的_ b 


1.23 倍。（这里 


2.718 28,即 


e 


e 




] 系数 


varname 


.display exp ( [ date ]) 

1.0020929 

.display exp ( b [ date ]} A 100 

1.2325359 

或者，我们也可以在 logit 命令中简单加上选项 or (代表 odds ratio ) 也行。再一种 
方法是下一节要讲的用 logistic 命令来取得发生比。 logistic 命令与 logit 在拟 

合模型上完全一样，但是其默认输出表中提供的就是发生比，而不是系数。 


使用 logistic 两街 


这里我们用 logistic 命令来做前面用 logit 估计的同样回归 模型: 

logistic any 


Logit estimates 


Number of obs 
LR chi2(1) 
Prob > chi2 
Pseudo R2 


23 


4.81 
0.0283 
0.1561 


Log likelihood = -12,991096 








% % % % 
16 0 3 
7 5 0 4 


% % % % 

4 9 0 7 
4 2 0 5 


% 


9 


5 5 5 1 

8 5 7 7 


4 4 5 8 
4 12 2 


3 


\/ t/r tjf If/ - 

D D + 1 1 D D + I 


+ I D D 


+ f D D 


rrrrl rrrr 

pppp i pppp 
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按照默认状况， lstat 应用 0 .5 的概率作为分割点（尽管我们可以加入 cutoff () 

选项来改变这一设置）。分类表中的几种符号有以下含义： 

一个观测中所关注的事件确实发生（即 y = 1 )◦ 在本例中， d 表示热损发 


D 


生了 


个观测中所关注的事件没有发生 （ 即 y = 0 ) 。在本例中，〜 d 表示本次航行 
没发生热损。 

+ 模型预测概率值大于等于分割点。由于我们使用了默认的分割点，这里的+ 

表示模型预测的发生热损概率为0 .5 或更高。 

- 预测概率值小于分割点。这里，-表示预测的热损概率小于0 . 5 。 

于是，按照模型预测热损概率值至少在 0.5 以上的标准，有 I 2 次航行的分类是准确 
的，即损坏的确实际上发生了。另外的5次航行，模型预测概率小于 0.5, 并且损坏并没 
有发生。因此总的分类正确率为12 +5 =17再除以23,即 73 . 9 1%。这个表还提供了 
一 些条件概率，比如，敏感性（ sensitivity ) 即在热损发生案例中预测概率大于等于 
0 .5 的案例所占的百分比 （14 次中的12次，即85 . 7 1% )。 

在执行 logistic 或 logit 后，后续命令 predict 可以计算各种预测和诊断用的 
统计指标。有关诊断指标的讨论请参见 Hosmer 和 IjeiTieshow (2000 ) 。 

预测 y = 1的概率 
线性预测（即 y = 1的对数发生比） 

线性预测的标准误 

AB 影响统计量，类似于 Cook 的 D 统计量 
对第：/个 x 模式的偏差度残差4 

皮尔森卡方变化量，记为知 2 或 Ar 2 P 

偏差度卡方变化量，记为 AD 或 4 v 2 d 
对第个 X 模式的杠杆作用~ 

第 J ’ 个 x 模式的分配数， j ' - 
第 j 个 x 模式的皮尔森残差 
标准化皮尔森残差 

ddeviance 和 hat 等选项取得的统计量并不是测量个别观测 

影响的，这与常规回归的对应部分一样。这些统计量测量的是“协变量模式” 
(covariate patterns ) 的影响，即如果将有特定 x 组合值的所有案例排除后的影响。 

(有关详细讨论参见 Hosmer 和 Lemeshow ( 2 000 ) 。本章的后面将会示范这些统计量 

的使用） 


D 


_ _ A 


predict 

predict newvar, 
predict newvar, stdp 

， dbeta 
， deviance 


newvar 


predict 

predict 

predict 


newvar 


newvar 


,dx2 

predict newvar, ddeviance 

， hat 

,number 

， resid 
predict nevrvar, rstandard 
用 dbeta 、 dx 


newvar 


predict 

predict 

predict 


newvar 


newvar 


newvar 




是否助推结点温度也会影响损坏事件的概率呢？我们可以将 te / np 作为第二个预测 
变量加人模型来对此进行研究。 


logistic any date temp 


Logit estimates 


Number of obs 
LR chi2(2) 
Prob > chi2 
Pseudo R2 


23 


8 . 09 
0.0175 

0.2627 


Log likelihood 


-11 . 350748 




any | Odds Ratio 


Std * Err 


P> [ z 


95 % Conf. Interval' 
_ ■ 


date I 
temp I 


1 • 00297 
8408309 


0013675 

0987887 


2 * 17 

-1*48 


0.030 

0.140 


000293 
- 6678848 


1.005653 
1,058561 




_ 













33,33% 

14.29% 

20 . 00 % 

25.00% 


False +■ rate for true 〜 D 
False 


Pr ( + 


rate for true D 


Pr ( 






False + rate for classified + 
False 


Pr (〜 D 
Pr ( D 


rate for classified 




Sensitivity 

Specificity 

Positive predictive value 
Negative predictive value 


根据这个拟合模型，结点温度每 1 度增量将使助推结点损坏发生比乘以 0.84( 换句 

话说，温度每提高1度减少损坏发生比 I 6 % )。尽管这种影响看起来很大，值得关注，近 
似 z 检验却表明它的统计性并不显著 （ 


-1.476, P = 0.140)。 然而，应用似然比卡 

方检验才更有确定性。命令 lrtest 根据最大似然估计值来比较嵌套的模型。首先，先 

要估计出包括所有自变量的完整 （ full ) 模型，就像前面用 logistic any date 

命令那样。然后，再键入 estimates store 命令，并指定一个变量名（如 fuJJ ) 来识 
别这第一个 模型： 


Z 二 


• estimates tore full 

现在再估计一个简化模型 （reduced model ) ，只包括完整模型中自变量中的 一 部 

分(这种简化模型常被称为“嵌套”于完整模型）。最后，用命令 lrtest fuJl 将嵌套模 

型对比以前所存的 full 模型来进行检验。比如（加上 quietly 前缀来取消输出，因为 
已经看到过这一输出 了）： 

quietly logistic any date 
lrtest full 


likelihood-ratio test 
(Assumption : 


LR chi2 (1) 
Prob > chi2 


3,28 
0 * 0701 


nested in full) 


_ 


这个 lrtest 命令检验最近的（即指嵌套）模型对比以前由 
令所存的模型。它将嵌套的两个最大似然估计模型进行总的检验 

= - 2 (In Z 

其中， In 0 是第一个 （ 含所有 x 变量的）模型的对数似然值，而 In I i 为第二个（含 x 变量 
子集的）对数似然值。比较相应模型0和模型1得到的统计量，它服从卡方分布，自由度 
为这两个模型在复杂性上的差别（即排除的 x 变量数）。键人 help lrtest 可以得到 
关于这个命令的更多说明，它其实还可以用于任何 Stata 的最大似然估计程序（如 


store 命 


estimates 


■ W 

10. 6 


X 


Correctly classified 


78*26% 
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分类表显示出，将温度作为自变量可以将我们的分类正确率提高到7 8.2 6 % 


o 


1 tat 


Logistic model for any 


True 


Classified | 


D 


D 


Total 


12 


15 


2 


6 




Total 


14 


9 


23 


Classified + if predicted Pr(D) >= .5 
True D defined as any ! - 0 






\Jf IJff \/ 

D D + I 


% 


5 6 0 
8 6 8 


\/ \/ \—/ Mr 
D D + l 


-pl\ Jf%. /\ /ll 

r r r r 
p p p p 
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10 logistif ： 问归 


或许多其他程序）。这个总的卡方统计量在 logit 或 


logit 、 mlogit、stcox 

logistic 时例行输出 （ 见公式 [ 10 .3 ]) ，是公式 [10 ] 的一个特例 


以前的 lrtest 例子完成了这个计算 


2[- 12. 991 096 - (- 11-350 748)] 


AT 


= 3, 28 

_ 

有1个自由度，相应的概率 p = 0.0 7 0 1，表明 temp 的影响在 
著。由于样本规模很小以及第二类错误有致命后果 ， a =0.10 似乎是一个比通常的 

= 0.05 的更谨慎的临界点。 


= 0.10 水平统计性显 


a 


a 


条件故启耘给固 


条件效应标绘图有助于理解 logistic 模型在概率方面意味着什么。这些标绘图 
背后的思路将以曲线表明，当维持所有其他的 x 变量在所选值上不变时（可选平均数、四 
分位数或极端值），模型预测的 y 变化如何表达为一个 x 变量的函数。比如，我们可以看 
到，当维持 date 在其第25个百分位不变时，任何热损事件的预测概率都是 temp 的函 

数。 date 的第25个百分位可以由 summarize date , detail 求出，为 8 569，即 

1983年6月18日。 


t 


quietly logit any 
generate LI - 

generate Phatl 

label variable Phatl 


[date]*8569 + 


IP】* temp 




[_cons] + 

1/(1 + exp(-Ll)) 

(distress >= 




8569) 11 

就是预测的 logit 值； Phatl 为相应的 distress ^1 的预测概率，根据公式 
(10.5) 计算。用类似的步骤可以将 date 固定于其第 75 个百分位上 （ 9 34 1，即1如 5 
年7月29日 ） 计算出任何 distress 的预测概率： 


date 


[date]*9341 + 


[ temp] * temp 


[cons] + 


generate L2 = 

generate Phat2 = 1/(1 + exp(-L2)) 

(distress >= 1 


9341) 11 

我们现在可以画出对于两种 date 水平的 temp 与任何 distress 的概率之间的 
关系了，参见图10 .2。 使用带许多纵向波段的中位数样条 （graph twoway mspline , 
bands (50)) 就产生出本图中的平滑曲线，作为近似的平滑 logistic 函数。 


date 


label variable Phat2 


graph twoway mspline Phatl temp, bands(50) 

|| mspline Phat2 temp, bands(50) 

|| , ytitle ( ft Probability of thermal distress") 

ylabel(0(.2)1, grid) xlabel(, grid) 

legend(label(1 n June 1983") label( 
rows(2) position(7) ring(0)) 


July 1985"> 
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图 10,2 




S 


% 

* 


m 


£ 


*S 


s 


S 


— June 1983 
—— July 1985 


30 


50 




70 


0 


a 


Joint temperature, 


F 


在较早的飞行 （date =8 569 ，左边的曲线）中，热损概率从约 80 ° F 时的极低水平 
变为在50 ° F 时的接近为1。然而，在较晚的航行 （ date =9 341，右边的曲线）中，热损 

概率甚至在很暖和的天气时就超过了 0. 5 ，在70 ° F 以下的飞行时热损概率便会接近于 

1。注意，挑战者号的起飞温度为 3 1 ° F ，这将使它处于图 10.2 的左侧顶部。这个分析预 
测出助推结点几乎是肯定要损坏的。 


诊新晚讨与椋给 




如前所述，用 predict 取得的 logistic 回归的影响及诊断统计并不是针对个另|) 
观测案例的，这与第 7 章中所讲的 0LS 回归诊断不同。相反 ， logistic 诊断是针对 

模式而言的 Q 然而，在航天飞机数据中，每一种 x 模式都是唯 一的， 即不存在两次飞行共 
享同样的 date 和 temp (很 自然， 也不会有两驾航天飞机在同 一天起 飞）。在使用 

predict 之前，我们将安静地重新再拟合一下最近的模型，以保证这个模型就是我们所 
要的 模型： 


X 


quietly logistic any 
.predict Phat3 

(option p assumed; Pr {any)) 

.label variable Phat3 "Predicted probability 1 . 

• predict dX2 f dx2 

(2 missing values generated) 

label variable 

• predict dB f dbeta 

(2 missing values generated) 

.label variable dB f> Influence 


t 


2 


Change in Pearson 


chi-squared 


_ predict dD, ddeviance 

(2 missing values generated) 

,label variable dD 


Change 


deviance 


和 Lemeshow( 2 000) 建议标绘图有助于理解这些诊断统计。要画出皮尔 


Hosmer 
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森卡方变化对损坏概率（图 io . 3 ) 的图形，键入 

catter dX2 Ph&t3 


graph twoway 


图 10.3 


o 


Predicted probability 


图中凸显出有两种拟合很差的 X 模式，在图的右上部和左上部。如果我们将标签包 

括于图中，就能直接从图中识别这两次航班 （ STS -2 和 STS 51 -A) ，就像图 10.4 所示。 

dX2 Phat3 f mlabel(flight) mlabsize(small) 

图 10.4 


catter 


graph twoway 


O 


• STS-2 


(0 


3 




• STS 51-A 


c 


c 




STS_51-J 


<N 


STS 41-G 




ST#§TS-3 


61-C 


o 


•4 


•2 


0 


Predicted probab tty 


dX2 Phat3 if dX2 > 


list flight any da 


Phat3 


dX2 


date J temp 


flight 


any 


1091805 I 
0407113 I 
8400974 I 
9999012 


70 9.630337 


7986 

8213 

9078 

9524 


STS-2 

STS-A 

STS_51-A 

STS^5l-L 


2 


_ 


80 


4 ■ 




67 5,899742 


1A 


_ 


31 


25 


■ 


尽管起航很晚并且温度很冷，航班 STS 51-A 并没有发生热损（见图 10 _ 2 )。 模型预 
测这次航班的损坏概率为 0.84 。 在图 10. 4 中，所有属于右升曲线的观测点都有 any 二 
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Predicted pnobabiffly 


dB 测量某一 x 模式对 logistic 回归的影响，如同 Cook 的 d 测量某一案例对 

OLS 估计影响一样。在 logistic 回归中，我们也能画出类似于图 7.7 那样的 OLS 诊 

断，将标绘记号的大小与其影响成比例，如图10_6所示。图 10.6 揭示出，两个拟合最差 
的观测同时就是最有影响的。 

graph twoway catter dD Phat3 [ 


ight = dB] f msymbol(oh) 

图 10,6 


Predicted pro 
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应用 STATA 做统计分析 


0,表示无热损发生。在左升曲线（有 any =1) 的上头，尽管属于较早航班并且起航时天 
气较温和，航班 STS - 2 还是发生了热损事件。模型预测其损坏概率只有0.109。（由于 

Stata 将缺失值作为“很大”数值，它还是列出有两个缺失值的航班，其中就包括挑战者 
号。它们就属于那些>5的情况。） 

类似的发现还可以从 dD 与预测概率的标绘图中取得，如图 10.5 所示。同样，因为 

航班 STS - 2 (左上端）和航班 STS S 1- A (右上端）拟合很差，所以都很突出。图 10.5 示 

范了带标签散点图的一个变种。它没有像前面图 10.4 那样将航班号置于相应散点记号 
附近,而是不显示散点记号，并且将标签置于原先散点所在的位置上。 

_ graph twoway scatter dD Ph&t3 , msymbol(i) mlabposition(0) 

mlabel(flight) mlabsize(small) 


图 10.5 


STS-2 




mm 


ST 


Ts 
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10 logisti <- 回归 


拟合差而又有影响的观测最值得特别关注，因为它们既与数据的主要模式矛盾、又 
将模型估计拉向与其相反的方向。当然，简单排除这些特异值可以取得对其他数据“更 
好的 拟合” ，但是这便是一种循环论证。更深切的反应应当是研究这些特异值为什么不 

同寻常？为什么是航班 STS - 2 而不是航班 STS 5 1- A 发生了助推结点损坏？寻求这种 

答案也许会导致研究人员发现以前忽视的变量或者按其他方式来定义模型。 


对存次 > 分类 y 的 logistic 固 _ 


logit 和 logistic 只能拟合含有两个类别 I 0 ,1 丨的 Y 变量模型。因此，我们需 

要其他的方法来拟合那些 y 变量包含更多类别的情况。比如： 

ologit 


regression) ，其中 y 


序次 logistic 回归 （ordered logist 

是序次变量。变量数值代表哪个类别并没有关系，但是较大数值要代 
表“较高”的类别。比如, y 的类别分为 II =“差”， 2 = “中”， 3 = 


1C 


好”1 


多项 logistic 回归 （multinomial logistic regression) ， 其 


mlogit 


中 y 含有多个类别且类别并无顺序。比如， y 的类别分为11 = “民主 


党”，2 =“共和党”，3 未申报”丨。 

如果 y 为 j 0 ， 1 1，那么 logit (或 logistic) 、 ologit 和 mlogit 都会得到本质上一 

样的估计。 

前面我们曾将三类的序次变量 distress 简化为二分变量 any ， 因为 logit 和 

都要求|0，1丨因变量。但是， ologit 就是设计出来分析像 distress 这样 

有多于两个类别的序次变量的。代表这些类别的具体数字编码并不重要，只要较大的数 
值代表着在测量上的“更多”即可。回顾一下， distress 的类别分为|0=“无”，1 = 

1或2”，2 =“3及以上”丨。 

序次 logistic 回归表明， date 和 te / np 都影响 distress ， 并且影响方向与我们 
前面分析的结果一样（即 date 有正影响， temp 为负影响） 


logisti 




11 


logit distress date tejnp, nolog 


23 


Number of obs 
LR chi2(2) 
Prob > chi2 
Pseudo R2 


Ordered logit estimates 


12 * 32 
0.0021 
0*2468 


-18.79706 


Log likelihood = 


[95% Conf, Interval] 


P> [ z 


Std. Err 


Coef 


z 


distress 


0057677 

0098215 


0008043 
336929 


0,009 
0.038 


2 * 60 
-2.08 


0012662 

0834473 


003286 
1733752 


date [ 
temp I 


4 


_ 


* 


_ 








_ 




(Ancillary parameters) 


9.554813 

9.722293 


16,42813 

18.12227 


cutl I 
cut2 I 


似然比检验要比输出的渐近 2 检验更为准确。首先，我们用 estimates store 将 
刚刚估计的完整模型（有两个自变量）结果暂存于内存中，并任意指定这个模型称为 A 。 


timates store 




11 【 译注： 以下输出表略有变化，底部多输出两个统计量。】 
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应用 STAT / V 做统计分析 


然后，再来拟合排除 temp 的简化模型，并将其结果暂存为模型 S ， 最后要求对简化模型 
( B ) 是否与完整模型 （ A ) 存在显著差异进行似然比 检验： 


quietly ologit distress date 
estimates store B 

lrtest B A 


likelihood-ratio test 
(Assumption: B nested in A) 


LR chi2(1) 
Prob > chi2 


6.12 

0,0133 




lrtest 输出中注明了它的假定，即模型 S 是嵌套于模型 A 的，也就是说模型 B 中 

的参数估计只是模型 A 中参数估计的一个子集，并且两个模型都是用同一套观测进行估 

计的（注意当有缺失时就可能不符了）。似然比检验表明，模型 S 的拟合显著较差。因为 

模型 A 只是多了 temp 这个自变量，所以似然比检验告诉我们， te 2 np 的贡献是显著的。 
用类似的步骤也可以看到 date 也有显著影响。 


quietly ologit distress t 
estimates store C 

lrtest C A 




likelihood-ratio test 
(Assumption; C nested in A) 


LR chi2(1) 
Prob > chi2 


10.33 
0.0013 


estimates 


store 和 lrtest 命令提供比较嵌套的最大似然模型的灵活工具。键入 

help lrtest 和 help estimates 来索取有关信息，以及更多高级的选项。 

序次 logit 模型估计一个作为 date 和 temp 的线性函数的分值 


S 


- 0 .003 286 date -0 .173 3 75 2 temp 

预测概率依赖于 S 的分值，再加上相对于估计的分割点的按 logistic 分布的扰动 

P( distress 二 “ 无”） 


S 


u 


二 P(S 


= P(S + u 彡 16 .428 13) 

= P(16 .428 13 <S + u 彡 18 *122 27) 

P(18 .122 27 <S + u) 

在执行 ologit 以后， predict 为因变量的每一个类别计算出预测概率。我们给 
predict 提供了这些概率的命名。比如，用 

个类别）的概率，用 onetivo 来注明1或 2 个损坏事件 （ distress 的第二个类别）的概率， 

用 threeplus 来注明3及以上事件 （ distress 的第三个、也是最后一个类别）的概 率：’ 


+ U 彡 cutl 


P(distress 二“1 或 2”） 二 P(_cutl <5 + u ^ _ cut 2) 

P(di 


3 及以上”) 


stress 二 


P (_ cut 2 < S + u) 






来注明无损坏发生 （ distress 的第一 


none 


.quietly ologit distress 
- predict 

(option p assumed; predicted probabilities) 


te temp 


none onetwo 


threeplus 


这就新建了三个变量 


describe 

i 


none on&two 


thresplus 


storage display 
type format 


value 

label 


variable name 


variable label 


none 

onetwo 

threeplus 


float %9. Og 
float %9. Og 
float % 9 . Og 


Pr(distress==0) 

Pr (distressful) 

Pr (distress==2) 


为挑战者号最后一次航班 （ 即这一数据的第2 5号）的预测概率令人不安 

list flight 


none onst 


threeplus if fligh 





Expect to live most of lire? 
Social ties to community scale 

Live in Kotzebue or smaller 

village? 


migrate 


kot z 


storage displ 

forma 


variable name 


type 


变量 life 表明这些学生今后最愿意在什么地方长期生活，共区分 3 类: “same” 即 

在本地区（西北极地 ）；“ other AK” 即在阿拉斯加的其他地方;“ leave AK ”即在阿拉斯 

加 以外： 


tabulate life f lot 


Expect to I 

live most 

of life? 


Freq 




92 

120 

47 


same | 
other AK | 
leave AK | 


★ ★★★★★★★★★★★★ *■★★★★★★★★★★★★★★★★★★★*★ * * * ★★★★★★★★★★★★ 




Total 


259 


Kotzebue 是西北极地地区的中心和最大城市 （近 3 000 人 口）。 这些学生中三分 
之一以上居住于 Kotzebue 。 其他人居住于只有 200 〜 700 人的较小村落。 Kotzebue 

学生较少恋家，并不想一辈子呆在本地，有较强倾向离开 本州： 
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0 logisti<* 回归 


threep 〜 s 


one two 


flight 


none 


99959 


0003346 


0000754 


25 . I STS 51-L 


♦ 


w 




基于对 23 个在挑战者号之前的航班的分析，我们的模型预测挑战者号几乎不可能无助推 

结点损坏事件 ( p = 0.000 075) ，发生1或2处损坏的概率只稍微大一点 （p = 0.000 3)，但 

是发生3处及以上损坏事件实际上是确定性的 = 6)。 

参见 Long (19 97 ) 或者 Hosmer 和 Lemeshow ( 2 000 ) 对序次 logistic 回归的 

更多讨论以及有关技术。《基础参考手册》 （Base deference Manual ) 解释了 Stata 

的有关执行工作。 


多项 logistic 哥拉 


当因变量的类别并没有自然顺序关系时，我们转向多项 logistic 回归 

(multinomial logistic regression) ， 也称为多类 （ polytomous) logistic 回 

归。 mlogit 命令也使其简单明了。当 y 仅有两个类别时， mlogit 拟合的模型与 
logistic 模型相同。然而， mlogit 模型实际上要更为复杂。本节提供一个扩展的例 
子来解释 mlogit 结果，所用数据 ( M ^ arctic . dta ) 来自于阿拉斯加西北极地自治区的 

高中学生调查 （Hamilton 和 Seyfrit: ， 1993 ) 


O 


Contains data from C : \data\NWarotic•dta 
obs 


NW Arctic high school students 

(Hamilton & Seyfrit 1993) 

20 Jul 2005 10:40 


259 


3 


vars 


2 590 <99,9% of memory free) 


size: 


value 

label 


y 


variable 1abel 


gg g 

o o o 


8 9 8 

% % % 


t 


e a e 
tot 
y 1 y 

b f b 


e s 2 

f e t 


1 t k 
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tabulate life kotz, chi2 


Live in Kotzebue 
smaller village 
village 


Expect to 

live most 

of life? 


or 


Kotzebue 


Total 


75 


same 
other AK 
leave AK 


17 I 
40 I 

36 I 


92 


80 


120 


11 


41 


Total 


16 6 


93 I 


259 


Pearson chi2(2) 


46.2992 


0,000 


Pr 






inlogit 能够复制这个简单的分析(尽管其似然比卡方并不正好与 tabulate 得到 
的皮尔森卡方相 等）： 


mlogit life kotz f nolog base(1) 


rrr 


Multinomial logistic 


regression 


Number of obs 
LR chi2(2) 
Prob > chi2 
Pseudo R2 


259 


46,23 
0.0000 
0.0863 


Log likelihood 


—244.64465 




life I 


RRR Std * Err 


P> I z 


[95% Conf. Interval] 


2 


_ 


other AK 


kotz I 2.205882 


7304664 


2.39 


0.017 


1.152687 


4.221369 


■ 


leave AK 


kotz I 


14 • 4385 6.307555 


6 . 11 (K 000 


6.132946 


33.99188 


(Outcome 1 ife==same is the 


comparison group) 


base( 1 ) 定义了 y 中的第 1 类（即 = “ same ”） 作为比较的基准类别。选项 
指示 mlogit 显示相对风险比，它类似于 logistic 给出的优势比。 

回头再看 tabulate 输出，我们可以计算出，在 Kotzebue 学生中要“离开阿拉斯 
加”对比“留在原地”的发生 比为： 


rrr 


P(leave AK)/P(same) = (36/93)/(17/93) 

2. 117 647 1 

在其他学生中要“离开阿拉斯加”对比“留在原地”的发生比为： 

尸 (leave AK)/P(same) = (11/166)/(75/166) 

= 0. 146 666 7 

于是， Kotzebue 学生要“离开阿拉斯加”对比“留在原地”的发生比是其他学生相应发 

生比的 14.438 5 倍： 




2.117 647 1/0.146 666 7 =14.438 5 

这个倍数是两个发生比的比值，就是 mlogit 输出的相对风险比 （14 .438 5)。 

总而言之，在其他条件相同时， y 的第 j ' 个类别在\条件下的相对风险比等于一个 

特定倍数，使 y =：/'( 相对于 y = base ) 的预测发生比乘以这个特定倍数后，得到相应 
^ +1条件下的发生比。换句话说，相对风险比 
不变时发生比变化的 倍数： 


就是当只有 义变 化而其他所有 


rrr 


x 


Jk 


P(y = j \ x k ) 


p(y = j \ x k + i) 

p (y = base I x k ) 一 P(y - base I + 1) 

变量 ties 是连续型测度，表示学生与家庭和社区之间的社会联系强度。我们将 


rrr 


x 


jk 
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10 logistic 回归 


ties 纳人模型作为第二个自 变量： 

life kotz ties, nolog base(1) 


rrr 


mlogxt 


259 


Number of obs 

LR chi2(4) 
Prob > chi2 
Pseudo R2 


Multinomial logistic regression 


91.96 
0,0000 
0.1717 


-221.77969 


Log likelihood 


[95% Conf. Interval] 


P> I z 


RRR Std. Err 


z 


life 


other AK 


4•387193 

6654492 


1 .117483 
3465911 


0.023 
0-000 


2.28 
一 4 .41 


7724996 

0799184 


2,214184 
4802486 


kotz I 

ties 




* 


_ 


母 


_ 


leave AK 


38.13955 

38075 


5.778907 

1392531 


0.000 

0.000 


5- 60 
-5,72 


7,146824 
059085 


14 - 84604 

230262 


kotz I 

ties [ 




* 




_ 


(Outcome life==same is the comparison group) 


这里的渐近 Z 检验表明，描述两个 X 变量影响的 4 个相对风险比都显著地区别于 1. 
如果一个 3 /变量有 J 个类别，那么 mlogit 建模时为每个自变量（ X )的影响计算 J 
1个相对风险比或系数，并因此进行 《 J -1 个 Z 检验，以评价对应每个自变量的两个或 
更多分别的虚无假设。似然比检验用于评价每个自变量的总影响。首先，我们将完整模 
型的结果加以暂存，并命名为 full ： 


0 


stimates store -full 


然后再排除一个 x 变量并拟合这一简化模型，并且进行相应似然比检验。比如，要 
检验自变量 ties 的影响，我们重复做一下排除 ties 后的 回归： 


quietly mlogit life kotz 

timates store no ties 




lrtest no ties full 


45*73 

0,0000 


LR chi2(2) 
Prob > chi2 


likelihood—ratio test 

(Assumption : no ties nested in full) 


显然， ties 的影响是显著的。然后，我们再对变量 kotz 的影响进行类似的检验 


quietly mlogit life ties 
estimates store no 一 kotz 
lrtest no kotz full 


39*05 

CK 0000 


LR chi2(2) 
Prob > chi2 


likelihood-ratio test 
(Assumption: 


kotz nested in full) 


no 


如果我们的数据包含着缺失值，以上所示的三个 mlogit 命令就会分析三个有重叠 
的观测子集。完整模型就会只用在 life 、 kotz 、 ties 值上都不缺失的那些观测来回 
归； 而只包含 kotz 的模型会将任何只有 ties 值缺失的观测回置于分 析中； 只包含 
ties 的模型会将只有 kotz 值缺失的观测回置于分析中。当这些发生时， Stata 会返 
回一个错误提示说 “observations differ .”。 在这种情况下，似然比检验实际上无 

效。这时，分析者必须在建模命令中加入 if 选择条件来筛选案例，比 如： 
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应用 STAT / V 做统计分析 


mlogit life kotz ties, nolog base(1) 
estimates store full 
quietly mlogit life kot 
estimates store no_ties 
lrtest no ties full 


rrr 


ties < 


quietly mlogit life ties if kotz < 

timates store no—kotz 
lrtest no kotz full 




或者干脆在分析之前就清除所有含缺失值的案例 


drop 


kotz >= 


ties >= 


数据 


dta 已经按此方式做过筛选，删除了那些含缺失值的观测案例。 

两个自变量 kotz 和 ties 都能显著地预测 life 。 那么，我们还能对于这一输出说 

(即留在本地）是基准类 


NWarctic 




些什么呢？为了解释特定的影响，我们得知道 life = 


same 


别。因此，相对风险比告诉我们 


学生中想迁往阿拉斯加别的地方对比想留在本地的发生比上， Kotzebue 的学生（即 

kotz = 


1 ) 在调整了与社区联系强度影响后是其他学生的 2.21 倍（即提高 


了 121% ) 0 

学生中想迁往阿拉斯加以外地方对比想留在本地的发生比上， Kotzebue 的学生 （BP 

kotz = 

1 385% ) 


1) 在调整了与社区联系强度影响后是其他学生的 14.85 倍（即提高了 


学生中想迁往阿拉斯加别的地方对比想留在本地的发生比上，在控制了现居住地类型 
( Kotzebue 市或其他村落）的影响以后，每一个单位的社会联系强度增量 （ 由于变量 

已经标准化了，其单位等于标准差）将使这一发生 比变化 0.48 倍（即降 


ties 


低52 % ) 


学生中想离开阿拉斯加对比想留在本地的发生比上，在控制了现居住地类型 
( Kotzebue 市或其他村落）的影响以后，每一个单位的社会联系强度增量将使这一 

发生比变化 0.23 倍（即降低77% )。 


predict 可以计算由 mlogit 模型取得的预测概率。选项 outcome (#) 指定我们 

想要 y 的哪一个类别的概率。比如，要得到 Jife = “ leave AK” （离开阿拉斯加，即第 3 
个类别）的预测 概率： 


ietly mlogit life kotz ties 
• predict PleavsAK f outcome(3) 

(option p 

,label variable PleaveAK ,f P (life 


sumed; predicted probability) 


as 


kotz, ties)" 


按因变量的每种取值列出预测概率可以显示模型的拟合情况 


table life, contents(mean PleaveAK) 


row 
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0 logistic 归 


Expect to 
live most 

of life? 


mean (PleaveAK) 


0811267 

1770225 

3892264 


same 
other AK 
leave AK 


* 


* 




1814672 


Total 


* 


这些学生的少数 （47 /259 =18% ) 期望离开阿拉斯加。即使对于那些实际已经选择期 

望离开这种答案的学生而言，这个模型计算其平均概率只有0.39。这反映出一个事实， 
即虽然我们的自变量存在很显著的影响，但在迁移计划方面仍有很大变异并没有得到 


解释 


o 


条件效应标绘图有助于审视一个模型关于连续自变量的影响。我们可以应用估计 
的系数（而不是风险比)来计算概率，并画出其影 响来： 


mlogit life kotz ties, nolog base(1) 


Multinomial logistic regression 


Number of obs 
LR chi2(4) 

Prob > chi 2 
Pseudo R2 
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91.96 
0.0000 
0.1717 


-221,77969 


Log likelihood 




[95% Conf. Interval: 


Std + Err 


P> I z 


life 

■ 


Coef 


2 


other AK 


3488868 

1664104 

1728053 


2,28 
-4 .41 

1 . 19 


0.023 
0.000 
0,232 


1110784 
-1*05961 
1322902 


1.47869 
4 07293 
5450942 


794884 
7334513 
206402 


kotz I 
ties I 
cons [ 


_ 




* 






4 


* 






* 


* 


_ 


_ 


leave AK 


4813959 

2565991 

3758163 


000 


2*697733 

-1,468537 

-2.115025 


5.60 

-5.72 
-5.63 


1,754215 
七 971462 
-2.851611 


3.641252 
9656124 
-1.378439 


kotz 

ties 

cons 


者 


000 




_ 


參 


000 


* 


(Outcome life = = saine is the comparison group) 


以下这些命令计算预测的 logit 值，然后再计算制作条件效应图时所需要的概率。 
villag 代表对于居住于其他村落的学生的 life = 2 ( 即要去阿拉斯加其他地方) 

的预测 logit 值; L 3 Kotz 为代表对于居住于 Kotzebue 市的学生的 life = 3 ( 即要 

离开阿拉斯加）的预测 logit 值; 如此 等等： 


.206402 +.794884*0 

206402 +.794884*1 

115025 +2.697733*0 -1.468537*ties 
115025 +2.697733*1 -1.468537*ties 

像其他 Stata 模璧命令一样, mlogit 也将系数存为宏。比如， [2 ]_ b [ ； cotz ] 指模 
型第二个 （life = 2) 方程中； cotz 的系数。因此，我们也可以按以下方式来创建同样的 
预测 logit 值变量。 L 2 v 的值将与前面定义的 L 2 villag 变量值相同，13 Jc 的值与 
L 3 kotz 相同，如此等等： 


generate L2villag = 


7334513*ties 




7334513*ties 




generate L3v±llag = - 


generate L3kotz = ■ 
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generate L2v = [2]_b [_cons] + [2] 一 b [Jrotz] *0 + [2]_b [ties] * ties 

generate L2k = 【 2 】一 b [ 一 cons】+ [2] 一 b [Jtotz] *1 + [2]_b[ ties] * ties 

generate L3v = [3 】 一 b [ 一 cons] + [3] ^b[kotz] *0 + [3]_b[ties]*ties 

generate L3k = [3] b[ cons] + [3] b[iotz] *1 + [3] b[ ties] *ties 


然后，不论用哪一套 logit 值，我们再计算出相应的预测概率来 


generate Plvxllag = 1/(1 +exp (L2vxll3tg) +exp (LSvillag)) 
label variable Plvillag 

generate P2villag = exp (L2villag) / (1+exp (L2v±llag) +exp (LSirillag)) 
label variable P2vlllag "other Alaska" 

generate P3v±llag - exp (L3v±llag)/ (1+exp (L2v±llag) +exp(L3villag)) 

_ 

label variable P3villag "leave Alaska" 

_ 

generate Plkotz - 1/(1 +exp (I<2Jtotz) +exp (L3kotz )) 

彆 

label variable Plkotz 
generate P2kotz = exp (L2kotz) / (1 +exp (L2kotz) +exp (L3Jtotz)) 
label variable P2kotz "other Alaska' 1 

generate P3kotz = exp (L3kotz) / (1 +exp (L2kotz) +exp (XiJJtotz)) 
label variable P3kotz "leave Alaska” 

图 10.7 和图 10.8 分别显示了其他村落和 Kotzebue 市学生的条件效应标绘图。 


same area 


same area 


graph twoway mspline Plvxllag ties f bands(50) 

|| mspline P2villag ties f bands(50) 

|| mspline P3villag ties f bands(50) 


|| , xlabel(-3(1)3) ylabel(0(.2)1) yline(0 1) xline (0) 

1) position(12) ring(0) label(1 
lsewhere Alaska") label( 


legend(order( 
label (2 
ytitle("Probability") 


same area 1 
leave Alaska”} cols(1)) 


图 10.7 


elsewhere Alaska 
leave Alaska 
same area 




!o 


“3 


-2 


0 


2 


3 


Social ties to community scale 


graph twoway mspline Plkotz ties f bands(50) 

|| mspline P2kotz ties, bands(50) 

|| mspline P3kotz ties f bands(50) 

|| , xlabel(-3(1)3) ylabel(0(.2)1) yline(0 1) xline(0) 

legend(order(3 2 1) position(12) ring(0) label(1 

label (2 "elsewhere Alaska") label (3 M leave Alaska 11 ) cols (1)) 
ytitie("Probability” > 


same area 
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logistic- 间 ! 1:1 


图 10.8 


leave Alaska 
elsewhere Alaska 
same area 


这些标绘图表明，在其他村落的学生中，社会联系 （ ties ) 能提高留在本地的概率， 
而不迁往阿拉斯加其他地方。这些村落学生中期望离开阿拉斯加的人相对较少。与此 
相反，在 Kotzebue 市的学生中，社会联系尤其对离开阿拉斯加有显著影响，而不是仅仅 
迁往本州的其他地方。只有当 Kotzebue 市的学生感到具有很强的社会联系时才会使 

他们倾向于选择留下来。 








Jeqojd 
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生存模型与事件计数模型 


本章介绍的是分析事件 （ event ) 数据的方法。生存分析 （ survival analysis) 

包括好几种研究所关注事件在什么时间发生的相关技术。尽管所说的事件有好事、有坏 
事，但是按照习惯我们将事件称之为“失败” （ failure )。 于是，失败发生以前的时间就 
是“生存时间” （ survival time )。 生存分析在生物医学研究中十分重要，但是它也同 

样可以应用于像工程学到社会科学的其他领域。比如，可以建立一个关于失业者用多长 
时间才能找到工作的模型，或者关于人们在结婚前有多长时间未婚生活的模型。 

提供一系列的生存分析程序，本章只是示范了其中的几种。 

我们还会简要地讨论泊松回归 （ Poisson regression) 及其有关方法。这些方法 

并不关注生存时间，而是关注在特定时间段中事件的发生率或发生数。事件计数方法 

( event-count methods ) 包括泊松回归和负二项回归 (negative 
regression ) 0 这些模型既可以用专门的命令来拟合，也可以通过一般化线性模型 

(generalized linear models , GLM ) 中提供的多种方法来 拟合。 

更多 Stata 的有关功能信息，请参阅《生存分析与流行病学梯度表参考手册》 

I 

(Survival Analsysis and Epidemiological Tables Reference Manual ) 0 

键入 help st 也能得到在线总览。 Selvin ( l " 5 ) 提供了关于生存分析和泊松回归很 

好的示范和介绍。本书也经过允许借用了好几个他的例子。其他一些对生存分析的很 

好的介绍还 包括： Cleves 、 Gould 和 Gutierrez ( 2 004 ) 的基于 Stata 软件的一本 
书； Rosner ( l 995 ) 书中的 一 章 ； Hosmer 和 Lemeshow ( 1999 ) 以及 Lee (1992 ) 的综 

合性著作。 McCullagh 和 Nelder(l 9 89 ) 描述了一般化线性模型。 Long(1997 ) 的 

书中有一章是关于计数数据回归模型（包括了泊松回归和负二项 回归） ，并且还包含了对 
一般化线性模型的一些讨论。在 Hardin 和 Hilbe( 2 001 ) 的书里，对一般化线性模型 
进行广泛的讨论，并且论及当前的使用。 

Stata 菜单中与本章最有关的部分包括 

Statistics-Survival analysis 
Graphics-Survival analysis graphs 
Statistics-Count outcomes 


Stata 


binomial 


生存分析 
生存分析作图 
计数结果 

^ 一 般化线性模型 

关于流行病学梯度表的内容，并没有包括在本章中，有关信息可以通过 help 

epitab 获得，或者可以通过菜单取得 咨询： 


Statistics-Generalized linear models (6 LM ) 


Statistics-Obsearvational /Epi • analysis 


观测及流行病学分析 
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LL 也存模型与事件计数模型 


命令乐苑 


大多数 Stata 生存分析 （st * ) 命令都要求数据已经提前用 stset 命令设置为生 

存时间 （ survival - time ) ( 参见以下）。 stset 只需要运行 一 次，并且所得数据随后 

要进行存盘。 

.stset timevar , failure ( failvar ) 

此命令用以识别单 一 记录 （ single - recorded ) 的生存时间数据。变量 timevar 

提供了或是到某一特定事件(称为“失败” （ failure )) 发生前、或是到观测结束时（称为 

■ 

“ 删截” （ censoring )) 的消逝时间长度。变量 fai J var 表明，相应 timevar 是以失 
败而结束（ failvar =1 ) 还是以删截而结束 （ failvar = 0 ) 。在这种数据中 ，一 个观测 

对象只包含一条记录。在做任何进一步的 St * 命令之前，这一数据必须先要操作 

_ 

stset 的处理。如果我们随后 save (存盘）这一数据，那么 stset 的定义将会同时被 
存盘。 stset 创建的新变量 一 s t 、一 d 、一 t 以及 _ t ；0 包含了有关编码信息，它们在随后执 

行的 st * 命令时是必须具备的。 

.stset timevar, failure ( failvar ) id ( patient)enter ( time start) 

这个命令识别多记录 （ multiple - recorded ) 的生存时间数据。在此例中，变量 
timevar 提供到失败发生、或是到删截时的消逝时间。变量 faiJvar 则表明，它是以 
失败 （1) 还是以删截 （0) 而结束。 patient 是一个识别码。在此数据中，同一个观测对 
象可以有多于一条的记录，但是相应记录必须具有同样的识另 U 码。 start 记录了每一对 

象进入观测的起姶时间。 

• stde 鲁 

这个命令描述生存时间数据，列出由 stset 设置的定义以及这一数据的其他特征。 

.stsum 

这个命令取得概要 统计: 历险时间总数，发生率，对象的数量，以及生存时间的百分位数。 

.ctset time nfail ncensor iieixter 

这个命令识别计数时间数据 （ count-time data )。 变量 time 是时间的测量； 
nfail 则是在 time 中失败的发生次数。我们还定义了 

观测的个数）和 nenter (即进人 time 中的观测个数），尽管这两个变量为可有可无的 
选项。在这些数据中， etiinic 和 

■ cttost 

这个命令将前面用 Ctset 命令设置的计数时间再转换成为生存时间数据形式，以 
便可以用 st * 命令来进行分析。 

sts graph 

这个命令将提供 Kaplan - Meier 存活函数 （ Kaplan - Meier 

function ) 的图形。为了可视化地比较两个或多个存活函数，比如，对分类变量 sex 不 
同性别作图，可在此命令中加上 by () 选项： 

sts graph , by ( sex ) 


y (ethnic sex) 


( 即在 time 中删截 


ncensor 


都是其他定义观测的特征分类变量。 


sex 


survivor 
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想要经过 cox 回归对连续自变量如 age (年龄）的影响进行调整，可以使用 

adjustfor () 选项： 

.sts graph f by(sex) adjustfor( 




注意:选项 by( )*adjustfor( ) 在其他 sts 命令中也起类似的作用，比如，在 


sts list、sts generate 以及 sts test 命令中 


.sts list 

这个命令将列出 Kaplan-Meier 存活（或失败）函数 

* sts test i 

这个命令对 sex 的各类别的 Kaplan-Meier 存活函数进行等同性检验。 

.sts generate survfunc = S 

创建一个新的变量，任意指定变量名为 survfunc , 用以存放估计的 Kaplan 
Meier 存活函数。 

stcox xl x2 x3 

这个命令拟 合一个 Cox 比例风 险模型 （Cox proportional hazard model) ,用 

失败之前的历险时间 （ time-to - failure ) 对连续或虚拟的自变量 xl 、 x3 做回归。 

stcox xl x2 x3, strata(x4) basechazard (hazard) robust 


ex 


这个命令拟合一个 Cox 比例风险模型，用 x 4 来做分层。将按组分别的基准累计风 


险函数 （baseline cumulative hazard function) 存为一个名为乃 azard 的新变 


量。（基准存活函数估计可以用选项 basesur( survive) 来取得，这个命令还能取得 

稳健 （ robust ) 标准误估计。参见第 9 章，或者参看《用户指南》中关于稳健标准误的更 
完全的解释。 


tphplot 9 by( sbx) 


这个命令根据前面刚估计的 stcox 模型为分类变量 


的每个类别画出 - In 
(- In (生存 ）） 相对于 In (时间）的标绘图。要是取得了大致平行的曲线即表明支持了 

Cox 模型关于风险比不随时间变化的假定。对 Cox 模型其他假定的检查可以使用命令 

stcoxkm( 比较 Cox 模型预测曲线和观测的 Kaplan-Meier 存活曲线）和 stphtest 

(根据 Schoenfeld 残差来进行检验）。有关命令和选项的说明，参见 help 


sex 


stcox 


treg xl x2 f dist(weibull) 


这个命令回归拟合 Weibull 分布模型 （ Weibull-distribution model ) ，其中 

用失败前的历险时间对连续或虚拟的自变量 xl 和 ^2 做回归。 

streg xl x2 x3 


,dist(exponential) robust 

I 

这个命令拟合指数分布 （ exponential distribution) 模型，其中用失败前的历 
险时间对连续或虚拟的自变量 xl 至 X 4 做回归。它能够取得对异方差性的稳健标准误 

估计。除了 weibull 模型和指数模型外， Streg 中关于其他 dist () 分布选项定义还 

包括对数正态分布 （lognormal )、对数 logistic 分布 （ log - logistic ) 

分布或一般化 7 分布 （generalized gamma ) 0 更多信息请参阅 help streg 


Gompertz 




tcurve r survival 
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在执行 streg 以后，此命令可画出相应模型在所有 x 变量的平均值上的生存函数。 

cumhaz at(x3=50 , x4=0) 

在执行 Btreg 以后，此命令可画出相应模型在 M 和冗的平均值上以及。为 50 
和 x 4 为0时的累计风险函数。 


tcurve 


exposure(x4) 


2 x3 f 

此命令将事件计 数变量 count (假定其服从泊松分布）对连续或虚拟的 自变量 

x 2、 x 3 做泊松回归。选项 irr 可使自变量的影响以发生率比 （incidence 
ratio ) 的形式提供。如果所有观测的暴露期并不相同的话，用选项 exposure( > 指 

定一个表示暴露期数量的变量。 

注意: 泊松模型假定，不管一个事件发生了多少次，每一观测的事件概率都保持不 

变。如果事件概率并不保持不变，我们就应该考虑换用 nbreg (负二项回归 , negative 

binomial regression ) 或 gnbreg (— 般化负二项回归）。 

1x2 link(log)family(poisson)lnoffset (x4) eform 

此命令完成与上述 poisson 例同样的回归 ，然 而是作为一般化线性模型 （ GLM ) 中 
的一种模型。 glm 可以拟合泊松模型、负二项模型、 logit 模型以及许多其他类型的模 

型，取决于选项 link () 指定的连接函数 （link function ) 类型和选项 family () 

所指定使用的分布家族。 


1 


xrr 


on coun 




poo. 


xl 




rate 


lm count 




生存时间教招 


生存时间数据 包括: 至少有一个变量测量每一观测对象在特定事件发生前所经历的 

时间。在有关文献中常常将所关注的事件统称为“失败”，而不管其实际意义。当一个观 

测对象在数据收集结束时还未发生过事件时，就称这一观测为被“删截”了。命令 

为生存时间分析设置数据集，其任务是识别哪个变量用以测量时间，以及 （ 如果必 

要）哪个变量表示观测是以失败或是删截为结束。这个数据还可以包括任意数量的其他 

测量变量或分类变量 ，一 个观测对象（比如，医疗中的患者）可以有多于一个的观测记录。 

为了示范 stset 的使用，我们以 Selvin ( l 995 : 453 ) 关于 5 1 位诊断为 HIV 病毒 

携带者的研究作为例子。这一数据最开始是采用粗数据（ 
aids . raw ， 其数据看起来是这样的： 


stset 


data ) 格式的文件 


raw - 


34 


42 


17 


2 


0 


47 


37 


3 


(第4至第50行被省略) 


29 


81 


51 


第1列值为案例号 （1 ，2,3,…，51)。第 2 列说明在该患者从诊断以后至出现 AIDS 症 
状或至此研究观测结束已经过了多少个月 U ， l 7 ,3 7 , …）。当这位患者出现了 AIDS 症 

状（即失败），那么第3列就取1值，要是这位患者在研究结束时尚未出现症状（即删 
截），那么第3列就取0值。最后一列报告了该患者在诊断时的年龄。 

我们可以用 infile 命令将粗数据读人内存，然后再为这些变量制作标签，并存为 

Stata 格式的文件 aidsl . dta ： 
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infile case time aids age using aids. raw f clear 

(51 observations read) 

• label variable case T 'Case ID number Tl 
label variable time "Months 


HIV diagnosis 
Developed AIDS symptoms” 


since 


label variable aids 


label variable 


Age in years" 
label data "AIDS (Selvin 1995:453) 


a 


compress 

was float now byte 

time was float now byte 

aids was float now byte 

age was float now byte 

save aidsl 

\data\aidsl,dta saved 


case 


file 


c 


下一步是识别哪个变量测量时间，哪个变量表示失败或删截。尽管使用这种单一记 
录数据时并不必要，我们也可以注明哪个变量是每个案例的识别码 （ id ( ))。在 

命令中，第一个提到的变量为测量时间的变量。然后，我们用 failure () 来指定代表 

观测是失败 (1) 或是删截 (0) 的虚拟变量。执行 stset 以后，我们将数据做再次存盘以 
保留这些信息。 


stset 


stset time, failure(aids) 


51 


(case) 


id 


case 

aids ! = 0 & aids < 

(time[_n-1], time] 

failu re 


failure event 
obs• time interval 
exit on or before 


51 total obs * 
0 exclusions 


51 obs 


remaining, representing ■ 


51 


subjects 


25 failures in 


single failure-per-subject data 

at risk from t = 

earliest observed entry t = 


3164 total analysi 


s time at risk 


0 


97 


save, replace 

\data\aids1.dta saved 


file c 


命令 stdes 将输出一个关于我们生存时间数据结构的简要描述。在这个简单例子 
中，每个对象只有一条记录，因此输出中的一些信息并不需要。 


stdes 


f ai lure d : 
analysis time 


aids 
t : time 


id : 


case 


per subject 
min 


Category 


total ■ 


mean 


median 


max 


of subjects 
of records 


no 


51 




no 


51 


(first) entry time 
(final) exit time 


0 


0 


62*03922 


67 


97 


sub]ects with 
time on gap if gap 
time at risk 


0 


gap 


3164 


62*03922 


1 


67 


97 


failures 


25 


4901961 


0 


0 


_ 
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命令 stsum 能够获取概要统计。在 3 I 64 个人-月 （ person - month ) 中有 25 个失 

0_007 901 4 0 由 Kaplan - 

function , 在后面讨论）可以推导出存 

活时间的百分位数。这一函数估计出， 25 %的患者出现 AIDS 症状大约是诊断后 4 1 个 
月内 ，而50%的患者出现症状大约是在个月内。在整个数据观测期间（共计 97 个 
月）出现 AIDS 症状的患者比例还不到 75 %，所以没有给岀第 75 百分位数。 


败，于是得到发生率 （incidence rate) 为 25/3 164 




Meier 存活函数 （ Kaplan -Meier 


survivor 


tsum 




failure _d : aids 
analysis time _t: time 

id: 


case 


Survival time 

50% 


of 


incidence 

rate 


no 


75% 


25% 


subjects 


time at risk 


81 


41 


51 


0079014 


3164 


total 


_ 


如果这个数据恰好包含一个分组或分类的变量，比如，性别变量 sex ( 0 为男， 1 为 
女），我们就可以用以下命令形式分别为每一类别取得概要统计： 


tsum , by ( sex ) 


以后各节将更为规范地描述比较两个或多个分组之间存活时间的方法 


计教时网教据 


像 aidsl . dta 这样的生存时间 （ st ) 数据包含着关于个人或事物的信息，用变量表 
示出每一个体的失败或删截发生的时间。还有一种数据称为计数时间 （ Ct ) 数据，它所 
包含的是汇总数据，变量描述的是在时间 t 时发生失败或删截的个体的计数。比如， 

diskdriv . dta 中包含了关于25只磁盘驱动器的假设检验信息。在1 2 00小时检验 
完成时，除了 5只驱动器以外，其他全部驱动器都失败了。 


Contains data from C : \data\diskdriv.dta 

obs 
var s 
size 


Count-time data on disk drives 
21 Jul 2005 09:34 


3 


48 (99.9% of memory free) 


value 

label 


storage display 
variable name type format 


variable label 


Hours of continuous operation 
Number of failures observed 
Number still working 


%8 , Og 
%8 • 0g 
%9, Og 


in t 
byte 

byte 


hours 

failures 

censored 


Sorted by : 


list 


failures 


censored 


hours 


0 


2 


200 


0 


400 


2 


0 


3 


600 


800 


3 


0 


1000 


5 


6. I 1200 
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为了设置一个计数时间数据，我们需要按照顺序依次定义一个时间变量 、一 个失败 
计数变量以及一个删截计数变量。在执行 ctset 以后，用 cttost 命令自动地将我们 
的计数时间数据转换为生存时间格式。 


ctset hours failures CBnsorBd 


dataset 


C:\data\diskdriv.dta 
hours 
failures 
censored 


name : 
time : 
fail : 
no. lost : 

no * enter r 


no 


攀 


(meaning all enter at time 0) 


cttost 


(data are now st) 


failure event : 
obs. time interval 


failures 1= 0 & failures < 
(0, hours: 
exit on or before : failure 

weight : [fweight=w] 


零 

* 


6 total obs * 
0 exclusions 


6 physical obs 
25 weighted obs 
20 failures in 


* remaining, equal to 
. f representing. 

single record/single failure data 
19400 total analysis time at risk, at risk from t = 


0 


earliest observed entry t = 

last observed exit t = 


0 


1200 


list 


hours 


failures 


d 


st 


to 


t 


w 


1 . I 1200 


0 1200 


0 


2 


200 


2 


200 


0 


3 


400 


3 


400 


0 


600 


600 


0 


5 


800 


3 


800 


0 


6* I 1000 


1000 


0 


tdes 


failure 

analysis time _t 

weight 


failures 

hours 

[fweight = w] 


per subject - 

unweighted 

median 


ghted 

total 


unweighted 

mean 


unwei 


Category 


min 


max 


of subjects 
of records 


no 


no 


(first) entry time 
(final) exit time 


0 


0 


0 


700 


200 


700 


1200 


subjects with 
time 

time at risk 


gap 


gap if gap 


on 


0 


4200 


700 


200 


700 


1200 


failures 


8333333 


0 


* 
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在其生存时间格式 （ st - format ) 的结果数据中定义了一套频数权数 

命令能够自动地识别这些权数并在任何生存时间分析中加以使用，因此这一数据现在 
被视为包括25个观测( 25 个硬盘驱动器)而不再是以前的 6 个观测（即6个时期）。 


w 


命令 


cttost 


t * 


stsum 


hours 

failures 
[fweight=w] 


failure time : 

failure/censor: 

weight : 




I - Survival time 

50% 


of 


incidence 

rate 




no 


75% 


25% 


subjects 


time at risk 


1000 


800 


600 


25 


0010309 


19400 


total 




Kaplan-Meier 存活洛教 


令代表在时期 t 开始时的尚未失败且尚未删截的观测案例数。令 d t 代表在时期 

内这些观测中发生的失败数。 Kaplan-Meier 存活函数关于生存超过时间 t 的估计 

是在时间 t 与在此以前各时期生存概率的连 乘积： 


t 


M ■ 

11. 1 

^ ■ 


5(o = n I (〜— 




比如，在上述的 AIDS 数据中，51个患者中有一人在诊断之后只有一个月就产生了症状。 
这么早的时候还没有观测被删截，因此“存活” （ 其意义是不发展为 aids ) 超过 time 

时的概 率为： 




5(1) = (51 - 1)/51 = 0.980 4 

第二个患者在 time = 2 时产生症状，而第三个患者则是在 time = 9 时，于 是有： 

5(2) = 0.980 4 x (50 - 1 )/50 = 0, 960 8 

5(9) = 0,960 8 x (49 - 1)/49 = 0. 941 2 

将 S ( t ) 按时间 t 所绘的图就是 Kaplan-Meier 存活曲线，就像图 11.1 所示。在 
Stata 中用 sts graph 命令便可自动绘出这样的图形。比如： 

aids r clear 

(AIDS (Selvin 1995 : 453)) 


use 


ts graph 


a Ids 

t ime 
case 


failure d 

analysis time 


t 


id 


图 11,1 


Kaplan-Meier survival estimate 


o 


is 


o 




■ 

o 
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对于第二存活函数的例子，我们改用 smokingl . dta 中的数据，这一数据改编自 
Rosner(1995) 的著作。数据观测共有 234 名以前的吸烟者，都要尝试戒烟。大多数都 

没有成功。变量 days 记录了开始戒烟至恢复吸烟之间经历的天数。这个研究共持续了 
一年，用变量 smoking 表示每个人在研究结束前是否恢复吸烟了 （ smoking = 1代表 

“失败”，而 smoking = 0 代表“删截”）。采用这套新数据，我们应当首先使用 stset 将 

这套数据转换为生存时间分析所需要的 格式： 


Contains data from C : \data\smokingl.dta 
obs 
vars 
size 


234 


Smoking (Rosner 1995:607) 

21 Jul 2005 09:35 


3744 (99. 9% of memory free) 


storage display 
type format 


value 

label 


variable 


name 


variable label 


id 


%9.0g 
%9,0g 
%9.0g 
%9.0g 
%9,0g 
%9. Og 
% 9 . Og 

%9. Og 


mt 


Case ID number 
Days abstinent 
Resumed smoking 
Age in years 
Sex (female) 

Cigarettes per day 
Carbon monoxide 

Minutes elapsed since last cig 


days 

smoking 

age 

sex 

cigs 


byte 
byte 
byte 
byte 
in t 


sex 


co 


10 


x 


minutes 


Sorted by 


tset 


ys f failure (smoking) 


failure event : 
obs * time interval : 
exit on or before : 


smoking != 0 & smoking 

(0, days] 

failure 


< 


234 total obs, 
0 exclusions 


234 obs 

201 failures in 
18946 total analysis time at risk, at risk from t = 

earliest observed entry t 

last observed exit t 


remaining, representing 

single record/single failure data 




0 


0 




366 


这一研究包括了 110 个男性和 l 24 个女性，两个性别的事件发生率显得很接近 


tsum , by ( sex ) 


failure _d : 
analysis time t : 


smoking 

days 


incidence 

rate 


of 


Survival time 

50% 


no 


time at risk 


sex 


subjects 


25% 


75% 


+ 齡 




Male I 
Female | 


8813 

10133 


0105526 

0106582 


110 


15 


68 




124 


15 


91 




total I 


18946 


0106091 


234 


15 


73 


* 


图 ii . 2 确认了这种相似性，表明男性和女性之间在存活函数上几乎没有什么差 
别。这就是说，两种性别在大约以同样的速率恢复吸烟。戒烟者的存活概率在戒烟后 
的前 3 0 天中下降非常迅速。不管是哪一性别，能够戒烟超过一整年的存活机会都不 

到 15 %。 
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生#模型与事件计数模型 


II 


ts graph , by(sex) 


smoking 

days 


failure _d 

analysis time _t 


11.2 


Kaplan-Meier survival estimates, by 


ie 


o 




o 




8 


o 


400 


300 


analysts time 


— sex - Femal 


sex = Male 


我们还可以使用对数秩检验 （ log-rank test ) 规范地检验存活函数的等同性。毫不 
奇怪，这一检验并没有发现男性与女性之间在重犯吸烟上有显著差别 （P = 0.677 2) 0 


ts test sex 


failure _d : smoking 
analysis time _t : days 


functions 


Log-rank test for equality of survivor 


Events 

expected 


I Events 
I observed 


sex 


95.88 
105.12 


93 


Male I 
Female [ 


108 


201.00 


201 


Total 


0 . 17 
0.6772 


chi2 (1) 

Pr>chi2 


Cox 比例风路媒型 


回归方法可以让我们的生存分析更进一步地检査多元的连续或分类自变量的影响。 

一个广为应用的方法就是应用比例风险模型 （ P ro P ortional hazard model ) 的 Cox 
回归。在时间 t 上的失败风险率 （hazard rate for failure ) 定 义为： 

在 时间 t 和 f ： -f At 之间的失败概 率 

( At ) (时间 t 以后的失败概率） 

我们将这个风险率建模为在时间 t 上的基准风险 （baseline hazard ， 标为 h 。） 和一个 

或多个 X 变量影响的函数 


[ 11 . 2 ] 


h( t) = 


[11.3 a ] 


P k x k ) 


h( t) - h 0 ( t)exp(j3 l x l +jS 2 x 2 


+ 


+ 


彆 _ « 


或者，等价地表达为 







260 I 应用 STAT / V 做统计分析 


ln [ h ( t ) ] ^ ln [* 0 ( t )] + j 8 1 x 1 + j 3 2 x 2 


[11 .3b] 

所谓“基准风险”指当一个观测的所有 X 变量都等于 0 时的风险。 Cox 回归以非参数方 
式对这个风险作出估计，并且取得公式 [11.3 ] 中那些参数的最大似然估计。 Stata 的 




stcox 程序通常是报告风险比 （hazard ratio ) ，它们就是 exp ( /3 ) 的估计。它们表 
示相对基准风险率而言的成比例变化。 

年龄会不会影响 AIDS 症状的发生呢？数据 aids . dta 包括了有助于回答这个问 
题的信息。请注意， stcox 命令与大多数其他 Stata 的模型拟合命令不同，我们只需 

要在这个命令中列出自变量即可。生存分析的因变量,包括时间变量以及删截变量，都 
是从 stset 数据中自动提取的。 


xas 

(AIDS (Selvin 1995 : 453)) 


use 


stcox 


r nolog 


failure _d : 

analysis time t : 


aids 

time 

case 


id 


Cox regression 


Breslow method for ties 




No. of subjects 
No■ of failures 
Time at risk 


51 


Number of obs 


51 


25 


3164 


LR chi2(1) 

Prob > chi2 


5.00 

0,0254 


Log likelihood 


-86.576295 


t I Haz. Ratio 


Std. Err 


P> I z 


[95% Conf. Interval] 


z 


age | 


1 . 084557 


0378623 


2,33 0•020 


1.01283 


1 * 161363 


幸 


我们可以通过参照年龄分别为 a 岁和 


1岁的两名 HIV 阳性的人来解释估计出 
的风险比 1.0 84 557 。它表明，年龄大1岁，那么在近期发生 AIDS 症状的风险就会提高 

8.5 % (即他们两人各自风险的比值为 1.084 557 )。这个比值显著地 （P = 0.020 ) 区另 IJ 

于1。如果我们想要按5岁年龄之差来陈述我们的发现，便可以将这一风险比做5 次方: 


3 + 


.display exp(_b[age 】） 

1 . 5005865 一 


于是，如果第二个人比第一个人年龄大 5 岁的话，那么其 AIDS 发生的风险会比前者高 
出 5 0%。我们还可以换一种方式来取得同样的结果（并且还可以取得新的置信区间）， 
就是先建立一个新版本的年龄变量，它以 5 岁为测量单位，然后再重新做一次回归。下 
列命令中的 nolog noshow 选项取消了迭代过程日志和生存数据描述的显示。 


generate 
label variable 

stcox 


5 


5 H age i 

,nolog noshow 


-year units 11 





patient 

time 

coronary 

weight 

sbp 

chol 

cigs 


ab 


Patient ID number 
Time in days 
Coronary event (1) 

Weight in pounds 

Systolic blood pressure 
Cholesterol level 
Cigarettes smoked per day 
Type A (1) 


( 0 ) 


or none 


B (0) personality 


or 


per subject 
min 


median 


max 


total 


mean 


Category 


failure d : 
analysis time 


coronary 

time 


t 


stdes 


3 5 


of subjects 
of records 


no 


35 


no 


0 


0 


(first) entry time 

(final) exit time 


3141 


2875 


773 


2580.629 


0 


subjects with gap 

time on gap if gap 

time at risk 


3141 


2875 


773 


2580,629 


90322 


0 


0 


2285714 


8 


failures 




Cox 回归发现，胆固醇水平 （ choJ ) 和吸烟 （ cigs ) 都显著地提高了冠心病发作的风 
险。与直觉相违背，体重 （ weight ) 却显得可以降低这种风险。血压 （ sbp ) 和 A / B 两种 

个性 （ 3办)都没有显著的净效应。 


chol cigs Ab f noshow olog 


tcox wex 


t 


[95% Conf - Interval] 


P> I z 


Std. Err 


t I Haz, Ratio 


z 


2.112711 


1.065815 


2*33 0.020 


2619305 


1•500587 


age5 I 


_ 


与常规回归类似， Cox 模型也能包括多个自变量。数据 ^ eart ， dta 中包含了 

Selvin(1995) 研究 35 位胆固醇水平极高的患者的生存时间数据。变量 time 提供了 
每一位患者的观察天数。 coronary 则代表在这一时间冠心病是否发作 （coronary = 
1为是 ， coronary =0为否）。这一数据中还包括了胆固醇水平和其他一些心脏病的影 

响因素。数据 heart . dta 以前已经由 stset time, failure ( coronaxy) 命令设置 

为生存时间分析格式了，所以我们可以直接开始进行生存分析 


o 


describe p&tient 麵 


value 

label 


storage display 

format 


variable label 


variable name 


type 
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11 


Breslow method for ties 


Cox regression 




51 


Number of obs 


51 


No ， of subjects 
No_ of failures 
Time at risk 


25 


3164 


5.00 
0.0254 


LR chi2(1) 
Prob > chi2 


■86 * 576295 


Log likelihood 










oooooooo 


99999999 
% % % % % % % % 


e e 


e 


e 


t t t t t 
y n n n y 


t 


t t 
y- n 

b i b i i i b b 


y 












9967034 
1.081421 

1.059947 
1.432676 
20_ 77655 


_ 


8769919 

9488087 
1.005067 
1.010707 
4476492 


畢 


* 


麝 


0 . 039 
0.700 
0 . 020 
0.038 

0*255 


0305184 
0338061 
0139984 
1071031 

2,985616 


_ 




m 


* 


9349336 

1.012947 

1 - 032142 
1.203335 
3*04969 


4 


weight I 

sbp I 

chol I 
cigs 
ab I 


t I Haz * Ratio 


Std. Err 


[95% Conf, Interval] 


P> I z 


z 


进行模型估计之后， stcox 还能够建立新变量来保留估计的基准累计风险 

function ) 。因为“基 

准”是指所有 X 变量等于0的情况，所以我们应当对所有变量重新对中 （ re - center ) 以 

便使它们的0值具有实际意义。一个患者如果要是体重为0镑、或血压为0,都不能提供 

一 个有用的比较基准。参照我们数据中的实际最小值，我们可以对体重 （ wei 的 t ) 这个 

变量加以改变，使其0值实际代表1 〗 0镑，并且将血压（5如）的0值代表100,将胆固醇 
7欠平（ choJ ) 的0值代表340 : 

p ti 


(baseline cumulative hazard ) 和存活函数 （ 


survivor 


ummarxze 


Variable | 


Obs 


Mean 


Std * Dev 


Max 


patient 

time 

coronary 

weight 

sbp 


35 


18 


10,24695 
616.0796 
426043 
23.55516 
14,28403 


35 


35 


2580.629 
2285714 
170*0857 
129.7143 


773 


3141 


35 


0 


* 


* 


35 


120 


225 


35 


104 


154 


chol I 
cigs 
ab I 


35 


369.2857 
17 , 14286 
.5142857 


51.32284 
13,07702 
5070926 


343 


645 


35 


0 


40 


35 


0 




• replace weight - 

(35 real changes made) 

replace 

(35 real changes made) 

• replace chol - chol 

(35 real changes made) 

summarize patlen - 


i h 


120 




100 


P 




340 


b 


Variable | 


Obs 


Mean 


Std. Dev 


Max 


patient 

time 

coronary 

weight 

sbp 


35 


18 


10,24695 
616.0796 
426043 

23.55516 
14,28403 


35 


35 


2580.629 
2285714 
50.08571 
29.71429 


773 


3141 


35 


0 




* 


35 


0 


105 


35 


54 


chol 

cigs 


35 


29.28571 
17.14286 
5142857 


51 * 32284 
13-07702 
5070926 


305 


35 


0 


40 


ab 


35 






现在，所有 X 变量的 0 值就都有具有实际意义了。要建立新变量来分别保留基准存活 
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Cox regression 


No. of subjects 

of failures 
Time at risk 


35 


Number of obs 


35 




8 


No 


90322 


LR chi2(5) 

Prob > chi2 


13*97 

0.0158 


Log likelihood 


-17.263231 


6 9 3 8 4 
0 3 3 0 1 











9967034 
1 * 081421 

1,059947 
1_ 432676 

20.77655 


* 


8769919 

9488087 

1.005067 

1.010707 

4476492 


_ 




_ 


.0305184 
0338061 
0139984 

1071031 
2 _ 985616 






* 


9349336 

1.012947 

1 . 032142 
1.203335 

3.04969 


, 


weight 


sbp 


chol 


cigs 


ab 


基准存活函数揭示了具有 “0” 体重 （120 磅）、“0”血压（100)、每天吸“0”枝香烟的 
B 类个性的患者的存活概率是随时间而降低的。尽管这一概率在最右侧表面看起来极 
迅速地下降，但是要注意，这一概率实际上只是从1下降到大约 0.96 而已。如果考虑自 
变量方面的不良影响，那么存活概率将下降得更快。 

同一基准存活函数图也可以不用 stcox 命令而以另外的方式取得。替换方法取得 
的图11. 4 使用了 sts graph 命令加上 adjustfor( ) 的调整选项，并列上要调整的 

自变量 名称： 


sts graph, adjustfor(veight 


p chol cigs ab) 


注意，那:？个重新对中的 X 变量并没有对风险比、标准误以及其他估计产生任何影 

和 hazard 。 宴想 

的标绘图，并且将数据点之 


响。这一命令建立了两个新变量，我们随意地将其命名为 
给基准存活函数作图，我们以 time 为横轴画出 
间做阶梯状连线，如图 11.3 所示。 


survivor 


survivor 


graph twoway line survivor time, connect( tairstep) sort 

图 11.3 


TimeIn d 
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估计和累计风险函数估计，我们就再做一次上述回归，但是在命令中加上 basesurv (> 和 

basechaz () 选项： 


ab f noshow nolog basesurv (survivor) 


stcox wslght bp chol 

basecha (hazard) 


cx 


Cox regression -- no ties 


Number of obs 


35 


35 


of subjects 
No - of failures 
Time at risk 


No 


90322 


LR chi 2 (5) 

Prob > chi2 


13.97 

0,0158 


Log likelihood 


—17.263231 




t I Haz. Ratio 


Std. Err 


h 9 5 % Conf. Interval’ 

^ A 


P> I z I 


z 








0 0 8 5 
0 2 3 5 


6 9 3 8 4 
0 3 3 0 1 
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failure _d : 
analysis time _t : 


coronary 

time 


11.4 


Survivor function 

adjusted for weight sbp choi cigs ab 


lO 


• 隼 

^5 


a 


8 


analysis tiim 


图 11.4 与图 11.3 不同，沿用了通常存活函数的刻度惯例，其纵坐标是从 0 到 1 。除 
在刻度方面不同，图 11 .3 和图 11 .4 其实描画的是同一曲线。 

图 11.5 利用我们由 stcox 命令建立的变量 hazard 画出了估计的基准累计风险 

如何随时间而变化。这个图表明，基准累计风险有 8 个上升台阶（因为有 8 名患者“失 
败 ” ，即得了冠心病），从接近 0 的水平提高到 0.033 。 


graph twoway connected hazard time, connect( tair tep) sort 

insynibol (Oh) 


图 11.5 


s 



g 


500 


1000 


2500 


3 


Ti in days 


指教爾拉与 Weibull 琢 ㈣ 


Cox 回归是按经验方式来估计基准存活函数，没有参照任何理论分布。另外还有几 
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种“参数”模型是从假定存活时间服从于一种已知理论分布人手来进行估计的。可以应 

_ 

用的分布类型包括指数（ exponential) 分布、 Weibull 分布、对数正态 （ lognormal) 
分布、对数 logistic (log-logistic) 分布、 Gompertz 分布以及一般化 gamma 分 

布。基于其中任何一种分布之上的模型都可以使用 streg 命令进行拟合。这些模型都 
有与 Cox 回归同样的 一 般形式（参见公式 [11.2 ] 和[ II . 3 ]) ，但是关于基准风险 ( t ) 

的定义是不同的。本节将用两个例子来加以示范。 

如果失败事件的发生是随机的，且风险固定不变，那么存活时间就服从指数分布，并 

且可以用指数回归 （ exponential regression) 来进行分析。风险不变意味着所研 

究的个体并不会“老化”，也就是说，他们在观察晚期的失败风险不会比其在观察早期的 
风险更高或更低。从长期而言，这一假定对于机械和生物都并不合理，但是如果观察期 
只涉及其生命周期中相对很小一段时，这种假定则大致可以成立。指数模型意味着，其 
存活函数的对数，即 ln ( « S ( O ) ,是 t 的线性函数。 

第二种常用的参数方法是 Weibull 回归，它的基础是更为一般性的 Weibull 分 

布。这种方法不要求失败率保持不变，而是允许失败率随时间均勻地提高或降低。 

Weibull 模型意味着， ln( - ln( 外 t) )) ， 是 ln( t) 的线性函数。 

图形可以提供关于指数模型或 Weibull 模型恰当性的诊断。比如，再用数据 aids . 
dta ， 我们先用 Kaplan - Meier 估计取得存活函数 S ( t ) ，再制作出一个 ln ( S ( t ) )对时间 
的图形（图11.6)。图中的 y 轴标签规定为固定的两位数、内含一位小数格式（％ 2.1 f )， 并 
且横向排列，以增进该图的可读性。 


.use aicfs , clear 

(AIDS (Selvin 1995 : 453)) 


scs gen s 
generate 1 


ln(S) 


graph twoway scatter logS tine 

ylabel< 一 .8(.1> 


format(%2.If) angle(horizontal)) 


图 11*6 


- 0.0 


—OhI 


- 0.2 


~ 0.3 


- 0.5 


- 0.6 


-0.7 


Months since HIV diagnosis 


图 11 .6 中的模式看起来大致是条直线，这鼓励我们先试一试指数回归 


streg age f dist(exponential) nolog noshow 
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log relative-hazard form 


Exponential regression 




51 


Number of obs 


51 


No • of subjects 

No, of failures 

Time at risk 


25 


3164 


LR chi2 (1) 
Prob > chi2 


4.34 
0,0372 


一 59.996976 


Log likelihood 




； 95% Conf. Interval: 


P> I z 


t I Haz. Ratio 


Std. Err 


2.21 0.027 


1 * 008028 


1.145172 


0349626 


1.074414 


age | 


* 


通过这一指数回归得到的风险比 （1.074) 和标准误 （0.035) 与我们以前用 Cox 回归 
的相应结果 (1.085 和 0.038) 并无太大差别。这种相似性反映出经验方法和指数模型 
所估计的风险函数的对应程度。根据这一指数模型， HIV 阳性的患者发展成 AIDS 的风 
险每增加一*岁便提高7 -4 %。 

执行 streg 命令以后， stcurve 命令可以画出这一模型的累计风险图、或存活函 

数图、或风险函数图。按照默认设置， stcurve 按模型中所有 x 变量取其平均数的条件 

下画出这些曲线图。我们也可以通过 at () 选项来定义其他的 x 变量值。在数据 
aids . dta 中，患者的年龄分布于26〜50岁。我们可以通过以下命令来画出在 age = 

26岁时的存活函数 曲线： 


t ( age =26) 

使用 atl () 和 at 2 () 选项还可以在图中提供更多信息，它可以同时显示出在不 
同 x 取值条件下的存活函数曲线，比如，在最低年龄和最高年龄时的 情况： 


tcurve t 


surviv 


tcurve , survival atl ( agd -26) at 2( age =50) connect 

(direct direct ) 


图 11,7 


Exponential regression 


CS 


o 




图 11.7 显示出，预测的存活曲线(从诊断出 HIV 到产生 AIDS 症状的转变）在年龄 

更大的患者中下降更快。在我们的指数回归输出表中 age 的风险比显著大于1其实表 
示的是同一情况，但是使用 stcurve 加上 atl () 和 at 2 () 选项值能够对这一效应提 

供更强大的可视化解释。这些选项在所有三种类型的 stcurve 制图中都以同样方式 


选用 


存活函数 


stcurve ， survival 
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风险函数 
累计风险函数 


stcurve , hazard 


stcurve, cumhaz 

除了指数分布以外， streg 还可以拟合基于 Weibull 分布的存活模型 。 Weibull 


分布在 ln(S( t)) 对 t 的图中可能看起来更为曲线化，但是在 ln( -ln(S( t))) 对 
ln ( t ) 的图中应该是线性的，如图 11.8 所示。而另一方面，指数分布在这两种图形中都 
显示为直线，并且在 ln ( -1：1(5^)))对111(£:)的图中有斜率等于1。实际上，图 11.8 

中的数据点距离斜率为1的直线并不远，表明我们前面所做的指数模型就很不错。 


1 (-1 (S)) 


generate lo 1 

generate logtime = 1 (tiine) 


graph twoway scatter loglogS logtimB f ylabel(,angle(hori ontal)) 

图 11.8 


0 




尽管我们在分析这个数据时并不需要像 Weibull 模型那样复杂，但为了示范，下面 
仍然提供了有关结果。 


treg agre, dist (weibull) noshow nolog 


Weibull regression 


log relative-hazard form 




No. of subjects 

of failures 
Time at risk 


51 


Number of obs 


51 


No 


25 


3164 


LR chi2(1) 
Prob > chi2 


4 - 68 
0.0306 


Log likelihood 


-59 _ 778257 


Rat io 


Std, Err 


t I Haz 


95 % Conf. Interval’ 
■ ^ 


P> I z 


1,079477 


0363509 


age | 


2.27 0*023 


1-010531 


U 153127 


4 


/In p 


1232638 


1820858 


0,68 0.498 


2336179 


4801454 






* 






1*131183 
8840305 


P 1 


2059723 

1609694 


.7916643 
6186934 


1.616309 
1-263162 


A 


1/P 




* 


■ 


Weibull 回归取得的风险比估计 (1.079 ) 处于我们前面的 Cox 回归和指数回归两 

者之间。与前面两个模型之间最值得注意的差别是在输岀表下部新出现了三行结果。 
它们都是关于 Weibull 分布形状参数 p 的 。 p =1对应着指数模型，即风险不随时间变 


a 

m 


7 


3 

- 













byte 

byte 

byte 

float 


age 

rad 

deaths 

pyear s 


Sorted by 


Age group 

Radiation exposure level 
Number of deaths 

Person-years 


ageg 
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化; P >1 表示风险随时间而 增加; P <1 表示风险随时间而减少。 P 的95%置信区间为 
从0 .79 到1 .62,所以在这里我们没有理由拒绝指数模型 （p 二 1)。 Weibull 模型的参 

数化所关注 ln ( p )、 p 或1 / p 三个指标尽管看起来不同，然而在数学上却是等价的，所 

以 Stata 同时提供这三者。在执行 streg ， dist ( weibull ) 以后， stcurve 可以绘 

出存活函数、或风险函数、或累计风险函数的曲线，就像在 streg ， dist 

( exponential ) 或其他 streg 模型后一样。 

当存活时间实际上服从于指数分布或 Weibull 分布时，指数回归或 Weibull 回归 

才比 Cox 回归更为可取。当存活时间并不服从这两种分布时，相应这两种模型就是错误 
设置的，其结果也是误导性的。 Cox 回归并不需要对分布形状作任何预先假定，因而它 
适用于更多的场合。 

除了指数模型和 Weibull 模型以外， streg 还能拟合更多类型的模型，比如， 
Gompertz 模型、对数正态模型、对数 logistic 模型或一般化 gamma 分布模型。键入 

help streg 或者参见《生存分析与流行病学梯度表参考手册》中有关命令以及当前选 

项的清单。 


泊松回拉 


当事件独立发生且发生概率不变时，那么在给定的一段时期中发生事件的计数就服 


从于泊松分布 （ Poisson distribution) 。 令 r ;_ 代表发生率 （ incidence rate) 


事件计数 

可能发生的事件数 

公式 [11 . 4 ] 中分母的专业术语称为“暴露” （ exposure) ，其测量单位常常是人-年 
(person-year) 。 我们将发生率的对数建模为一个或多个自变量 x 的线性 函数： 


[11.4] 


r. 


ln( T t ) - /3q + ^1 -^1 + ^ 2^2 


11 -5 s 




+ 




与此等价，这个模型也能描述期望事件计数的对数 


In (期望计数）= In (暴露）+氏6 + /3 2 x 2 


[11.5b] 

假定我们所关注的事件服从泊松过程，那么泊松回归能够求解这些系数的最大似然 




+ 


* » • 


估计 


奥克雷奇国家实验室关于辐射暴露和癌症死亡的研究数据提供了一个例子。数据 
oaJcridge.dta 有 5 6个观测案例，代表了 56个年龄与辐射的交互分类 （ 7个年龄类 

别 x 8 个辐射类别）。对于每一种组合，我们都有相应的死亡数和暴露人年数。 


Contains data from C : \data\oakridge,dta 

obs 

var s 
size 


56 


Radiation (Selvin 1995:474) 

21 Jul 2005 09:34 


4 


616 (99.9% of memory free) 


storage display 
variable name type format 


value 

label 


variable label 


9 g g 
o o o 


g 

o 





Poisson regression 


Number of obs 

LR chi2(1) 

Prob > chi2 
Pseudo R2 




Log likelihood 


-169.7364 


poxsson deaths rad r nolog exposure(pyears) 


irr 


那么死亡率是不是随辐射暴露而增加呢？泊松回归发现有统计性显著的影响 


rad 


deaths 


age 


pyears 


6 . 


65-69 


1607 


lisfc in 1/ 


age I 

rad I 
deaths I 
pyears t 


56 


2 ,0181 
2.312024 
3.178203 
10455.91 


56 


1 


56 


1,839286 

3807.679 


16 


56 


23 


71382 
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summarxz 


Variable 


Obs 


Std. Dev 


Mean 


Max 


在上述回归中，我们定义死亡事件计数 （ deaths ) 为因变量，辐射 （ rad ) 为自变量。 
泊松回归的“暴露”变量是每个辐射类别的人年数 pyears 。 命令选项 irr 要求在结果 
表中输岀发生率比而不是输出回归系数，也就是说，我们直接取得的是 exp (谷 M 古计，而 
不是默认输出的召估计。根据这个发生率比 （incidence rate ratio , 输出表中为 

IRR 列），当辐射每提高一个类别，死亡率就是原来的 1.2* 倍（也就是提高了 
23.6% ) 0 尽管这个比值取得了统计显著性，但是模型拟合得并不很好，伪 i ? 2 (参见公式 

[10 .4]) 只有0 .042 


o 


为了进行拟合优度检验，将泊松模型的预测结果与观测频数加以比较，使用后续命 


令 poisgof 


poisgof 


Goodness - of-fit chi2 

Prob > chi2 ( 54) 


254.5475 

0 * 0000 




这些拟合优度检验结果（卡方= 2 54.5 ， P < 0.000 0 5 ) 表明，我们的模型预测与实际计数 
显著不同，从另一个角度再次说明这个模型拟合得不好。 

当我们将年龄 age 作为第二个自变量纳入模型后，结果就好多了。于是，伪 i ? 2 提高 
ill 0.596 6 ，并且拟合优度检验也不再拒绝我们的模型了。 


deaths I 


IRR Std. Err 


P> I z 


[95% Conf, Interval] 


z 


* 


rad I 

pyears | (exposure) 


1*236469 


0603551 


4 * 35 0 _ 000 


1 * 123657 


1.360606 


■ 



6 7 10 
5 8 0 2 


1 1 1 B 
0 5 5 2 7 
9 2 2 17 
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I - J I 

< 5050 
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float 
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age 

rad 

deaths 

pyears 
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Sorted by 
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poxsson deaths rad age, nolog exposure (pyears) 


xrr 


Number of obs 
LR chi2(2) 
Prob > chi2 
Pseudo R2 


Poisson regression 


56 


211.41 
0.0000 
0.5966 


Log likelihood = 


-71.4653 


deaths 


IRR Std. Err 


P>| z 


! 95% Conf * Interval] 


z 


■ 


rad I 
age | 

pyears | {exposure) 


1 *176673 
1.960034 


0593446 

0997536 


3*23 

13.22 


0*001 

0,000 


1.065924 
1.773955 


1.298929 
2.165631 


4 


離 


poisgof 


Goodness-of-fit chi2 

Prob > chi2(53 ) 


58.00534 
0 _ 2960 




为了简明，就此我们是将 rad 和 age 当作连续变量来处理的，并且期望它们对对数 
死亡率的影响是线性的。但是，实际上这两个自变量的测量都是序次类别。比如 ， rad = 
1代表辐射暴露为 0，* rad = 2 代表0 毫西弗特 ， rad =3代表20〜39毫西弗特，如 

此等等。当我们寻找非线性关系时可以用另 一 种方法将暴露类别纳人回归，就是将它们 

作为 一 套虚拟变量。下面，我们用 tabulate 命令及其 gen () 选项来建立8个虚拟变 
量， rl 至 rS ， 来代表 rad 的8种取值 


o 


tabulate rad, gen(r) 


Radiation 

exposure | 

level I 


Freq 


Percent 


Cum 


Age group 

Radiation exposure level 
Number of deaths 


ageg 


Person-years 

T 3id~~ 

rad= = 
rad=- 
rad= = 

r ad= = 
rad= = 

rad== 
r ad= = 


1 # 0000 


2.0000 
3 _ 0000 
4 ,0000 
5,0000 
6.0000 
7 _ 0000 
8.0000 


Total I 


56 


100.00 


describe 


Contains data from C : \data\oabridge.dta 

obs 
var s 
size 


56 


Radiation (Selvin 1995:474) 
21 Jul 2005 09:34 


12 


10 64 (9 9.9% of memory free) 


storage display 
type format 


value 

label ■ 


variable name 


variable label 


9 

o 
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1 • 828214 
1 • 775122 


2.599996 
3.630655 
5.833629 
5,512165 
8,847704 
8.665833 
2.167937 


_ 


* 


* 


_ 




r2 

r3 I 

r4 I 

r5 I 
r6 
r78 

age I 

pyears | (exposure) 


1.473602 
L 630718 
2.376065 

7278387 
1,168507 
3,980326 
1 •961722 


4269013 
6659381 
1,08888 
7518538 
1.206942 
1.580024 
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4 


4 




deaths 


IRR Std• Err 


[95% Conf * Interval] 


P> I z 


z 


8351884 
732428 
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0961018 
1543195 
1.013863 
1.703168 

1.775267 


A 


ft 


■ 


■ 


* 


426898 

6659257 

1,088835 
7518255 
1.20691 
3.337738 

1 . 640978 

1000652 


* 


_ 


_ 


_ 











我们还可以照这种方式继续简化这个模型。进行每一步时， test 都有助于评价将 
两个虚拟变量合并是否合理。 


辐射水平7和8似乎有类似的效应，所以我们可以考虑将它们合并以简化这个模 
型。首先，我们检验它们的系数是否显著不同。结果它们的差异并 不大： 


test r 7 


r 


[deaths]r7 


[deaths]r8 


0 ■ 0 






0 _ 03 
0 • 8676 


chi2 ( 1) 

Prob > chi2 


然后，再建立一个新的虚拟变量 r 7 S ，如果 r 7 和 rS 两者之中有一个取值为1时它就等 
于1,比如： 


generate 78 - ( r 7 


r8) 


最后，在模型中用这个新自变量取代 r 7 和 rS ，比如 


poi son deaths 2-r 


78 age f irr ex (pyears) nolog 


Number of obs 
LR chi2 (7) 
Prob > chi2 
Pseudo R2 


56 


Poisson regression 


215,41 
0.0000 
0.6079 


Log likelihood = -69.465332 


r2 


r3 


rA 


r5 


r7 


r8 


age 

pyears 



IRR Std 


1 生存模 M 与事件计数模塑 I 271 


现在我们将这些虚拟变量中的 7 个作为回归自变量（省略了其中 1 个以避免多元共 
线性）。这一虚拟变量模型额外的复杂性对拟合并没有什么改进。但是,它的确增加了 
我们的解释。可以看到,辐射对死亡率的总影响主要是来自于最高的两类辐射水平 （W 

和 rS ，分别对应着 10 Q 〜 119和120及以上毫西弗特两类）。在辐射为这样高水平的组 

类，死亡率会是无辐射类别的4倍之高。 


deaths r2_r8 age, nolog exposure (pyears) 


irr 
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56 


Number of obs 
LR chi2(8) 
Prob > chi2 
Pseudo R2 


Poisson regression 
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Log likelihood 
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般化蜣性棋型 


一般化线性模型 （ GLM ) 的形式如下 


( 3^) J :择 Q /3] Xj + ^2^2 


[1K6] 

其中 g [] 是连接函数 （link function ) , F 代表分布家族。这一通用公式包含了许多 
特殊模型。比如， g [] 是恒等函数，且 y 服从于正态（高斯)分布，我们就得到线性回归模 




F 


+ 


y 




型 


e( y ) 二 A> + 卩 i x i + 卩 2 X 2 


[11.7] 

如果 g [ ]是 logit 函数且 y 服从于贝努里 （ Bernoulli ) 分布，我们就得到 logit 回 

归 模型： 


+ J3 k x k ， y 〜 Normal 


logit[E(y)] =/3 0 + j3 2 x 2 


[ 11 * 8 ] 

由于其广泛的应用， GLM 在本书中多处地方本来都可以加以介绍。 它 与本章的关联 
是因为其拟合事件模型的能力。比如，泊松回归要求^[ ] 是自然对数函数并且 y 服从泊 


+ 3k x k ， 


y - Bernoulli 


* _ ♦ 


松（ Poisson) 分布 


ln[ E(y) ] » /3 0 + + /3 2 x 2 


+ fhx k ’ 


[11.9] 

正如对这样 一 个灵活方法的期盼, Stata 的 glm 命令容纳许多不同的选项。用户 

不仅可以指定分布家族和连接函数，而且可以指定方差估计方法、拟合程序、输出和补偿 

方面的细节。这些选项使 glm 即使用于已经有专门命令的那些模型（如 
logistic 或 poisson ) 时也是很有用的替代方法。 

我们可以展示一个“一般”的 glm 命令如下 


y - Poisson 


regress 


. 


lm y xl x2 x3 


family ( familynawe ) link ( 1 inkname ) 

lnoffset ( exposure ) eform jknife 




其中， family () 指定了 y 的分布家族， link () 指定连接函数， lnoffset () 用于对 
“暴露”变量的补偿 （ offset ) ，就像在泊松回归所需的那样。选项 eform 要求回归系 

数为指数形式的 0 乂 9 ( ) 0 )而不是 / 8 。而 j knife 选项则是指定标准误要通过刀切法 
( jackknife ) 来加以计算。 

可用的分布家 族有： 


family ( gaussian ) 


高斯分布，即正态分布（默认) 


family ( igaussian ) 反高斯分布 （inverse Gaussian ) 

f ami ly ( binomial ) 


贝努里二项分布 （Bernoulli binomial ) 
泊松分布（ Poisson ) 

负二项分布 （negative binomial ) 
Gamma 分布 


f amily ( poisson ) 
family ( nbinomial ) 


family ( 

我们还可以指定一个数字或变量表示二项分布分母#(试验次数），或者用一个数字表示 

负二 项方差和偏差度函数 （deviance function ) ， 这 些就通过在 family () 选项中 
对它们加以 声明： ' 


family(binomial #) 
family ( binomial vaj 

family (nbinomial #) 




可用的连接函数有 


3577 

3577 

3577 


4 




■ 


No. of obs 
Residual df 
Scale pa ram 
(1/df) Deviance 
(1/df) Pearson 








Generalized 1inear models 
Optimization 


: ML : Newton~Raphson 


175306*2097 

175306*2097 


Deviance 

Pearson 




log likelihood = -279.99869 


Iteration 0 : 


glm csa expense f link(identity) family(gaus 


xan 


我们也可以用以下命令来拟合同一个模型，并且取得完全同样的估计 


regres csat expense 


恒等函数（默认） 

对数函数 

logit 函数 

probit 函数 

补充双对数函数 
发生比幂函数 
幂函数 
负二项函数 
双对数函数 
对数余角函数 

系数的方差或标准误可以通过各种方法来进行估计。以下列出部分 glm 的方差估 


link( identity) 
link(log) 
link(logit) 

link(probit) 
link(cloglog) 
link(opower ) 
link( power ) 
link(nbinomial) 
link(loglog) 
link(logo) 


计选项 


Berndt 、 Hall、Hall 和 Hausman 的 “ B - H - cubed ” 方差估计 

观测信息矩阵方差估计 

Huber / White f 明治方差估计 

无偏三明治方差估计 
异方差性和自相关一致性方差估计 
刀切法方差估计 
一 步刀切法方差估计 

自助法方差估计。默认为199次重复，指定其他数字时可加 

bsrep( #) 选项 

要想取得各种选项的完整清单及有关技术细节，请查询《基础参考手册》中的 gim 。 更深 

人的 GLM 处理可以参阅 Hardin 和 Hilbe (2001) 的著作。 

第6章开始于用美国50个州及哥伦比亚特区学生平均支出 （ expanse ) 与平均综 
合 SAT 分（ csat ) 的数据 （ states . dta ) 做了一个简单 回归： 


opg 


oim 

robust 

unbiased 

nwest 
jknife 

jknifel 

bstrap 
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Log likelihood 


-279.9986936 
175298 _ 346 


11,05877 


ATC 


BIC 


[Gaussian] 
[Identity] 


Variance function : V (u) 

g(u) 
OIM 


Link function 
Standard errors 


u 






Std * Err 


[95% Conf - Interval ； 


csat 


Coef 


P> [ 2 


2 


0222756 
1060.732 


0060371 
32* 7009 


-3,69 
32.44 


0,000 
0.000 


0341082 
996,6399 


0104431 
1124 _ 825 


expense 

cons I 








■ 


響 


* 


* 


19 8 8 8 
5 4 7 7 7 
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因为 link ( identity) 和 family ( gaussian) 都是默认选项，我们在上一个 

glm 命令其实用不着它们。 

寒际上， glm 命令能做的工作比重复 regress 结果要多得多。比如，我们可以拟 
合同一个 OLS 模型，但是取得自助法计算的标准误 

expense f link(identity) family(gaussian) bstrap 

log likelihood 


12 


lm csat 


Iteration 0 


-279*99869 




Bootstrap iterations (199) 

— I - 


1 


2 




3 


-十 


4 


5 


f- 




+ 一 




















50 


100 


150 


Generalized linear models 
Optimization 


No. of obs 
Residual df 
Scale param 
C1/df) Deviance 

(1/df) Pearson 


51 


: ML : Newton-Raphson 


49 


4124 * 656 

3577.678 
3577.678 




Deviance 

Pearson 


175306,2097 
175306,2097 










Variance function : V(u) 

Link function 

Standard errors 


[Gaussian] 
[Identity] 




: g (u) 

: Bootstrap 


u 


Log likelihood 


- 279* 9986936 
175293,346 


AIC 


11.05877 




BIC 


Bootstrap 

Std. Err 


csat 


Coef 


P> I z I 


[95% Conf * Interval] 


z 


* 


expense | 

cons I 


-_ 0222756 

1060.732 


0039284 
25*36566 


-5.67 

41.82 


0 _ 000 
0.000 


- 0299751 

1011,017 


0145762 
1110.448 


_ 




_ 


自助法标准误是通过在规模为 n = 5 1 的原始数据中所做的 1" 次12 =51的重置随机抽 

样来反映系数估计的观测变异的。在此例中，自助法标准误小于相应理论标准误，并且 
导致置信区间也比较窄。 

与此类似，我们能用 glm 来重复第10章中的第一个 logistic 回归。在以下示例 
中，我们要求输出刀切法标准误和优势比，即指数形式 （ eform) 的 系数： 


， link(logit) family(bernoulli) eform jknife 




any 




Iteration 0 
Iteration 1 
Iteration 2 


log likelihood = -12.995268 
log likelihood = -12,991098 
log likelihood 


-12.991096 


Jackknife iterations (23) 


1 


-+ 


3 


- 1 - 


4 




十 


5 






十一 
















Generalized linear model 
Optimization 


s 


No. of obs 
Residual df 
Scale param 

(1/df) Deviance 
(1/df) Pearson 


23 


: ML : 


Newton-Raphson 


21 


Deviance 

Pearson 


25,98219269 
22 -8885488 




1.237247 
1 - 089931 




Variance function 
Link function 
Standard 


V(u) 

g (u) 

Jackknife 


u*(1-u) 

In(u/(1-u)) 


[Bernoulli] 

[Logit] 




errors 


12 


【 译注: Stata 第 9 版现输出格式和 BIC 、自助法标准误、 


95 % CI 的计算值都略有变化。】 


Z 
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生存模塑与事件计数模型 


11 


1 * 303574 


AIC 


-12.99109634 
19. 71120426 


Log likelihood 


BIC 


Jackknife 
Std, Err, 


[95% Conf, Interval: 


P> I z 


I Odds Ratio 


z 


any 


1 . 005133 


9990623 


1.35 0,176 


0015486 


1 , 002093 


date 


叠 


4 


13 


而本章最后的 poisson 回归则是对应着以下这个 glm 模型： 

glm deaths r2~r6 r78 age, link(log) family(poisson) 

lnoffset {pyears) 


form 


尽管 glm 能够复制由许多专门命令所拟合的模型，并且还添加了一些新功能,那些 
专门命令仍有它们自己的优势，包括在速度方面以及在可供用户决定的选项方面 。 glm 
最独特的吸引力在于它有能力去拟合 Stata 并无专门命令的那些类型的模型。 


【 译注: Stata 第9版现输出格式和 BIC 计算值略有变化。】 


13 





12 


主成分、因子和聚类分析 


14 


主成分 （principal components ) 和因子分析 （factor analysi s ) 都是将许多 
相关的变量合并成少数几个潜在维度 （underlying dimensions ) ,因而提供了用于 
简化 （ simplification ) 的方法。为了达到简化的目的，分析人员必须从诸多不同种 

类的备选方法中进行选择。如果数据的确反映了明确的数个潜在维度，那么不同方法可 

能会收敛于类似的结果上。但是，当不存在明确的潜在维度的情况下，不同方法得到的 

结果往往会出现分歧。对这些方法的试验能够告诉我们一个特定的结果的稳定性如何, 
或者它在多大程度上取决于特定分析技术的人为选择。 

Stata 采用五条基本命令来实现主成分和因子 分析： 


主成分分析 (principle components analysis ) 


pea 

factor 


提取若干不同类型的因子。 


greigen 根据最近的 pea 或 factor 构建碎石图 （ 

标绘图， plot of the eigenvalues )。 

在执行 factor 后，进行正交（即相互独立的因子）或斜交 （ g 卩因子不 
相互独立）的旋转。 

在执行 pea 、 factor 或 rotate 之后，创建因子分 （ factor 
scores )( 即复合变量， composite variables ) 和其他的案例统 

计量。 

由 predict 创建的复合变量随后可被像任何其他 Stata 变量一样加以保存、列 

出、制图和分析。 

对于那些采用加总其他变量的老方法而不是用因子分析来创建复合变量的用户，可 
以通过计算一个 a 信度系数 （reliability coefficient ) 对所得结果进行评价： 

的 a 信度。 

聚类分析（ cluster analysis ) 则不是将变量加以合并，而是通过找到非重叠的、 

基于经验的数个类型或组别将观测案例加以合并。聚类分析方法甚至比因子分析更为 

多样化，但理论却更少。 Stata 的 cluster 命令可以进行聚类分析、结果制图以及形 
成区分结果组别的新变量等工作。 

本章所描述的方法可以通过以下菜单方式来操作： 


graph )( 即特征值 


scree 


rotate 


predict 


alpha 


Cronbach 


Statistics-Multivariate analysis 

Graphics-More statistical graphs 


多元分析 
更多统计图形 


【译注 ：翻译 中发现原书本章中的命令与输出因 Stata 9. 0更新而有明显出人，因此由原作者对本章作了修订本 
章依据这一修订文稿翻译。】 
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命令击 tt 


pea xl -x20 

对变量 xi 到 x 20 进行主成分分析。 

pea xl -x20 , mineigen (1) 

对变量 Xl 到 ^20 进行主成分分析，保留特征值大于 1 的成分。 

factor xl -x20 , ml factor (5) 

采用最大似然法对变量 xl 到 ^20 进行因子分析，只保留前五个因子。 

screeplot 

画出由最近的 factor 命令得到的特征值对因子或成分数目的碎石图或图形。 

rotate , varimax factors (2) 

对由最近的 factor 命令得到的前两个因子进行正交（用方差最大法， varimax ) 


旋转。 


.rotate, promax factors (3) 

对由最近的 factor 命令得到的前三个因子进行斜交（用幂方法， promax ) 旋转。 

.predict fl £2 f 3 

基于最近的 factor 和 rotate 命令，创建三个新的名为 fl 和幻的因子分变 

量 （ factor 


variables ) 


score 


1 -xlO 

计算作为 xl 到 xlO 的合计的复合变量的 Cronbach 的 ot 信度系数。以负值方式 

输人项目的含义通常是反向的。可以通过一些选项来取消这一默认设置，或者以原始变 
量的合计或以其标准化变量的合计来构成复合变量。 


( L2 cent) 

以重心法 （centroid linkage ) 进行凝聚式 
( agglomerative ) 聚类分析。欧氏距离 （ Euclidean distance ) ( L2 )测量了观测 

案例之间的相异性 （ dissimilarity ) 。这一聚类分析的结果被以 L2 cent 的名称加 
以保存。 

.cluster dendrogram, ylabel(0( .5)3) outnumber (20) 

xlabel (,angle (vertical)) 

画出前次聚类分析结果的树状图 （tree graph ) 或系统树图 （ dendrogram ) 

cutnumber(20) 设定将一些最为相似的观测案例聚合之后，图形中只保留2 0个聚类。 

标签以紧凑的垂直方式显示在图形的下面。 cluster dendrogram 的作用和 

clsuter tree 完全 一 样。 

* cluster generate ctype = groups (3 ) ， 

创建一个新变量 ctype (取值为1、2或3)，通过该变量将每条观测案例按名为 
L2 cent 的聚类分析结果归类到其前三个组别中去。 


cluster centroidlinkage 






使用变量 


和 


O 


) 


L2cent 


LfEIiiE 


主成分 


我们将使用描述太阳系九颗主要行星的一个小规模数据集 pJanets . dta (取自 
Beatty 等， 1981) 来举例说明基本的主成分和因子分析命令。该数据包含了以原始数 
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据及其自然对数形式保存的几个变量。这里，采用对数是为了消除偏态、并将变量之间 
的关系线性化。 


Contains da t a from C : \data\planets.dta 
obs : 
var s : 

size: 


Solar syst em data 
22 Jul 2005 09:49 


12 


441 (99.9% 


of memory free ) 


display 

format 


storage 

type 


value 

label 


variable name 


variable label 


planet 

dsun 

radius 

rings 

moons 

mass 

dens i ty 
1 ogdsun 
logr ad 
logmoons 

logmass 

logdense 


s t r 7 
float 

float 

byte 

byte 
f 1 oat 
float 

f loa t 

float 

float 

float 

float 


%9s 


Planet 
Mean dist . 


% 9 . Og 
%9 . Og 
%8 . Og 

%8 . Og 
%9 . Og 
%9 . Og 
%9 - Og 
%9 . Og 
%9 , Og 

%9 • Og 
%9 . Og 


km*10"6 
Equatorial radius in km 


sun 


r inglbl 


Has rings ? 

Number of known 

Mass in kilograms 
Mean density 
natural log dsun 

natural log radius 
natural log (moons + 1) 

natural log 
natural log dense 


moons 


g/ cm" 3 


f 


mass 


Sorted by : dsun 


为了提取初始因子和主成分，请使用 factor 命令及其后跟随的变量清单（变量顺 
序任意）、以及以下选项 之一： 


主成分因子法 (principal component factoring ) 

主因子法 （principal factoring ) (默认选项） 

使用迭代公因子方差 （iterated communalities ) 的主因子法 
最大似然因子法 （ maximum-likelihood factoring ) 

主成分通过专门的命令 pea 计算得到。请键人 help pea 或 help factor 查看这些 

命令的选项。 — 

为了取得主成分因子，请 键人： 

• factor rings 1 ogdsun - logdenae , pcf 

(obs = 9 ) 


Factor analysis/correlation 

Method 
Rotat ion : 


Number of obs 
Retained factors 
Number of params 


9 


principal-component factors 
(unrotated) 


2 


11 


Eigenvalue 


Factor 


Dif ference 


Proport ion 


Cumulative 


Fac tor 1 

Fac t or2 
Fact or 3 

Fac t or 4 
Factors 
Fac tor 6 


4 I 62365 

1,16896 
0.11232 
0.05837 
0 . 03663 
0-00006 


3.45469 

1.05664 

0* 05395 

0 • 02174 
0 . 03657 


0.7706 

0 • 1948 

0,0187 
0, 0097 
0.0061 
0.0000 


0.7706 

0,9654 
0.9842 

0.9939 

1.0000 

1,0000 


independent 


LR test : 


chi2(15) 


vs, saturated : 


100.49 Prob>chi2 


0 . 0000 






Fac tor loadings (pattern matrix) and unique variances 


Variable 


Fact or 1 


Uniqueness 


Factor2 f 


0.9792 
0.67 10 

0 _ 9229 
0.9765 
0.83 3 8 
-0,8451 


rings 

logdsun 

logr ad 
logmoons 

1 ogmas s 
logdense 


0.0772 
-0.7 109 

0.373 6 
0.0003 
0.5446 
0.4705 


0.0353 
0 . 0443 
0.0088 
0 - 0465 
0.0082 
0.0644 
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只有前两个成分具有大于1的特征值 （ eigenvalue ) ，同时这两个成分解释了六个 
变量组合方差 （combined variance ) 的96%还多。不重要的第 3 到第 6 个主成分在 

随后的分析中可以放心地被省略。 

两个 factor 选项用于控制提取因子的 数目： 

factor(#) 


这里的嫩定因子数目 
这里的定被保留因子的最小特征值 
主成分因子法 （ PCf ) 程序自动删除那些特征值小于1的因子，因此 


minexgen 


factor rings logdaun - logdenae, pcf 


等价于 


factor rings logdaun - logdense ， pcf mineigen (1) 


在本例中，如果键人以下命令的话,我们也将得到同样的结果， 


factor rings logdsun - logdense ，pcf factors (2) 


要想在每次 factor 之后查看碎石图（特征值对主成分或因子数目的标绘图），可使 

用 screeplot 命令 15 。图 12.1 中位于特征值等于1处的水平线标示了保留主成分的 
常用分界点 （cutoff )，同时再次强调了本例中的成分3到6并不重要。 

yline ( 1 ) 


greigen, 


图 12*1 


旋转 


旋转 （ rotation ) 会进一步简化因子结构。在提取因子之后，键入 rotate 命令以 
及以下这些选项 之一： 


最大方差正交旋转，适用于相互独立的因子或成分(默认选项）。 
promax 斜交旋转，允许因子或成分之间相关。选择一个小于等于 4 

的数 (promax 的指数）；数越大，因子间的相关程度越高。 

为默认设定。 


varxmax 


() 


promax 


proznax 


另外还有两个 rotate 的选项 


【译注：此处也可以用 greigen 命令，它与 screeplot 等价（见下例）。】 
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() 这一选项与和 factor 搭配时一样，也是设定要保留多少个因子。 

最小信息熵正交旋转。 

ipf 还是 ml 选项中的哪一类方法来做因子分析，之后都能进 
行旋转。在本节，我们将一直基于我们的 pcf 例子。要对行星数据中发现的前两个成分 
作正交旋转（默认的旋转方法），我们键入 


factors 


entropy 

无论应用 pcf 


rotate 


9 


Number of obs 

Retained factors 

Number of params 


Factor analysis/correlation 

Method : principal-component factors 
Rotat ion : orthogonal 


2 


11 


(Kaiser off) 


var imax 


Cumulative 


Dif f 


Proport ion 


Variance 


Facto r 


er ence 


0.5615 
0.4 03 9 


0.94539 


0.5615 

0.9654 


Fac tori 
Fa c t or 2 


3 . 3 6900 
2.42361 


100*49 Prob>chi2 


0,0000 


independent 


saturated : 


chi2(15) 


LR test : 


vs . 




Rotated fac tor loadings 


(pattern matrix) and unique 


variances 


Fac t or 2 


Uniqueness 


Variable 


Fac tori 


0.8279 

0.107 1 

0.9616 

0.7794 

0 - 9936 
0,3 909 


0.5285 
0.97 17 

0.2 5 80 
0.58 82 

0.0678 

0.8848 


0.0353 

0.0443 

0.0088 
0* 0465 

0.0082 

0.0644 


rings 

1ogdsun 

1ograd 

1 ogmoons 
1 ogmas s 
logdense 


t 






Fac tor rotat ion matrix 


Fac t or1 Fac t or2 


Fac tori 
Fac tor 2 


0.7980 
0 . 602 6 


— 0 . 7980 




本例采纳了所有的默认 设定: 最大方差法旋转和保留与最近一次 factor 同样的因 
子数目。采用以下命令，我们可以明确地要求进行同样的 旋转： 


rotate, varimax factors 


对于最近一次提取因子的斜交旋转（允许因子相关），请键人 


rotate, promax 


Factor analysis/correlation 

Method : principal-component factors 
Rotation : oblique promax (Kaiser off) 


9 


Number of obs 

Retained factors 
Number of params 


2 


11 


Proport ion 


Factor 


Va rlance 


Rotated factors are correlated 


Fac tori 

Factor2 


0,6874 
(K 553 9 


4.12467 
3 .3 2370 


i ndependent 


LR test ： 


saturated 


100.49 Prob>chi2 


chi2(15) 


0 - 0000 


vs . 


V* 

■ 






Rota ted factor loadings (pattern mat rix) and 


unique variances 
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Variable 1 


Fac t or 1 


Uniqueness 


Fac t or 2 


0.7626 
-0 . 1727 
0.992 6 

0.6907 
1.0853 
一 CK 1692 


0-34 66 
1.0520 
0.0060 
0.4275 
0.2154 
-0.8719 


0.0353 

0 , 0443 
0.00 88 
0.04 65 
0.0082 
0 . 0644 


rings 

1ogdsun 
lograd 

logmoons 

logmass 

1 ogdense 




Factor rotation matrix 


Factor1 Factor2 


Fact or 1 
Fac t or 2 


0.9250 
0 . 3 800 


0.7898 
一 0.6134 


I 


默认状态下，本例使用的 promax 的指数为3。我们可以明确设定 
想要得到的因 子数： 

.rotate ， promax (3) factors (2) 

promax( 4 ) 将允许对负载矩阵 （loading matrix ) 作进一步的简化，但是将以更强的 
因子间相关和更低的总方差解释比例作为代价。 

进行 promax 方定转之后， rings 、 Jograd 、 Jogmoons 和 logmass 在因子2上的负 
载最高。这看起来是一个“大规模/多卫星”维度 " 

的负载更高了，构成了一个“遥远/低密度”维度，下一节将展示如何创建代表这些维度 
的新变量。 一 个后续因子分析的制图命令 loadingplot 有助于将其可视化 

• loadingplot , factors (2) yline(O) xline (0) 


指数和 


promax 


logdsun logdense 在因子 1 上 


o 


o 


图 12.2 


Factor loadings 


fogdsun 


in 


login oor 


CM 


rings 


O 




£ 


logmass # 


logdense 


- .5 


Factor 1 


Rc»tatfon:oblique promax(3) 

Method:principal-compoRent factors 


因子分 


因子分 （ factor 

i 、然后以因子分系数进行加权合计为每个因子构成的线性组合 （ 

composites ) 0 基于最近的 rotate 或 factor 结果， predict 会自动进行这些计 

算。在 Predict 命令中，我们提供了新变量的名称，比如 n 和 f2 


s ) 是通过将每个变量标准化为平均数等于 0 和方差等于 


score 


linear 


o 
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predict fl f2 


(regression scoring assumed) 


based on promax(3 J rotated factors) 


Scoring coefficients (method 


regress 1 on ； 




Fact or2 


Variable 


Fact or 1 


0,12674 

0.48769 

-0,03 84 0 

0.16664 

-0.14338 

-CK 39127 


0.22099 
- 0.09689 
0.3 06 08 
0.1 9543 
0 . 34386 
— 0.01609 


rings 
1ogdsun 

lograd 
logmoons 
1ogmas s 彳 
1 ogdens e i 




label variable fl "Large size /many satellites" 
label variable f2 11 Far out /low density" 
list planet fl f2 




f X 


f 2 


planet 


-. 9172388 
5160229 
-.3939372 
.6799535 

1.342658 


- 1.256881 
-1.188757 
-1.035242 

-. S970106 
,3841085 


Mercury 

Venus 

Earth 

Mars 
Jupi ter 


2 • 


3 . 


4 ■ 




5 ■ 


6 . 


1.184475 

*7682409 
. 647119 

-1.43534 


,9259058 

93 47457 
.8161058 

1.017025 


Saturn 

Uranus 

Neptune 

Pluto 


7 


叠 


8 ■ 


9 


+ — 一 


作为标准化的变量，新的因子分打和具有（近似）等于0的平均数和等于1的 


标准差 


summarize fl f2 


Variable 


Obs 


Mean 


Std. Dev. 


Max 


fl 【 


-3 , 31e-09 
9.93e-09 


- 1 . 43 534 
一 1 • 2 5 6 881 


1.342658 
1.017025 


f 2 


9 


1 


因此，因子分是以距离其平均数的标准差单位进行测量的。比如，水星 （ Mercury) 低于 
大规模/多卫星 （fl ) 维度的平均数大约 0.92 个标准差，因为它很小而且没有卫星。 7 jC 
星低于遥远/低密度 （沒 ） 维度的平均数大约 1.26 个标准差，因为它实际上接近太阳而 
且具有高密度。相比而言，土星 （ Saturn ) 高于这两个维度平均数分别为 1.18 和 0.93 

个标准差。 

promax 旋转允许因子分之间存在 相关： 

.correlate fl f2 

( obs = 9 ) 


f 1 


f 2 


f 1 


1.0000 

0.4974 


f 2 


1,0000 


因子 1 上的得分与因子 2 上的得分之间具有中度正相关 :遥远 /低密度行星也更可能是 
具有许多卫星的更大行星。 

另一个后因子分析制图命令， scoreplot 可绘出这些观测案例的因子分的散点图。 
当作主成分使用的话，因子可以帮助识别多元特异值，或由远离大多数案例的那些案例 
















Pluto 


Uranus*5atum 


• Neptune 


• Jupiter 


♦ Earth 



一旦由 predict 创建得到，因子分就能像任何其他 Stata 变量那样对其进行列出、计 

算相关、画图等操作。因子分在社会和行为科学中常常用来将许多测验或问卷项目合并 
成复合变量或指数。未旋转情况下采用主成分得到的因子分常用于分析来自气候学和 
遥感等自然科学领域的大型数据集。在这些应用中，主成分被称作“经验正交 函数 ” 

(empirical orthogonal functions) 。 第一个经验正交函数即 E0F1 等于第一个 

未旋转的主成分因子分。第一个经验正交函数即 E0F2 则是第二个未旋转的主成分因子 
分，如此等等。 


主因子法 


主因子法 （principal factoring) 根据一个修正的相关矩阵提取主成分， 这一矩 


“ # Venus 

Mercury 


Scores for factor 1 


Botfftion;oblTque promaxO) 

Method:principal-component factors 


内层的那些岩质行星（比如，水星，在因子 1“ 遥远 4 氏密度”上得 分低; 在因子 2“ 大 
规模/多卫星”上得分也低）聚集在图中的左下角。外层的气体巨星则具有相反的特征、 
并聚集在图中的右上角。冥王星 （ Pluto) 在行星中是独一无二的，物理上类似于一些外 
层体系的卫星，在“遥远/低密度”维度上得分很高，但在“大规模/多卫星”维度上得分很 
低。我们的因子分析因此将冥王星看作与任一行星主群体都不一致的不同种类物体。 
由于认识到冥王星其实是个例外，国际天文学联盟 2006 年投票决定重新将它划归为诸 
多已知的“侏儒行星” 之一， 使得我们只有八个真正的行星。 

如果采用最大方差而不是 promax 旋转的话，我们将得到相互独立的因 子分： 


quietly factor rings logdsun - logdenae, cf 
quietly rotate 


• quietly predict varimaxl varimax2 

• correlate varimaxl varimax2 

(obs=9) 


I varimaxl varimax2 


varimaxl 
varimax2 


1 , 000 0 
0.0000 


1 . 000 0 
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所形成的聚类。图 12.3 显示了三个不同类型的行星 


scoreplot ， mlabel ( planet) yline ( ) xline () 


图 12 .3 


Score variables (factor) 


Z Jolueljohsso 0 
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阵中的主对角线由公因子方差 （ C ◦皿 nunality ) 估计构成，而不是由1构成。 factor 

的两种选项 pf 和 ipf 都执行主因子法。它们在如何估计公因子方差上存在 差别： 

公因子方差估计值等于就每一变量对所有其他变量进行回归时所得到的 S 
公因子方差的迭代估计。 

尽管主成分分析集中于对变量的方差进行解释，但主因子法则是对变量之间的相关进行 


2 


f 


o 


ipf 


解释 


0 


我们对行星数据采用按迭代公因子方差估计的主因子法 （ ipf ) 


. factor rings logdsun — logdense ， ipf 

( obs = 9 ) 


Factor analysis/correlation 

Method : iterated principal factors 
Rotation : (unrot at ed) 


9 


Number of obs 
Retained factors 
Number of params 


5 


15 


Beware : solution is a Heywood 

invalid or boundary values of uniqueness) 


case 


{l - e . 


Eigenvalue 


Proport ion 


Di fference 


Cumulative 


Factor 


Fact or 1 

Fac t or 2 
Fac t or 3 
Fac t or4 

Factors 

Factor6 


4.59663 

1.12846 
0.07739 
0,013 01 
0-00125 

- 0.00012 


3 . 46817 
1.05107 

0 . 0643 8 

0 . 0117 6 
0.00137 


0.7903 

0 . 1940 
0-0133 
0.0022 
0.00 02 
—CK 0000 


0.7903 

0 * 9843 
0 . 9976 
0.9998 

1.0000 
1 . 0000 


independent 


LR test ： 


saturated : 


chi2(15) 


100*49 Prob>chi2 


0.0000 


vs 




Factor loadings (pattern matrix) and unique variances 


Variable 


Fac tor 1 


Fac t or2 


Fac tor 3 


Fac t or4 


Factors 


Uniquene ss 


-0.0223 I 
0.0082 ! 
0.0166 I 

0.0160 I 
- 0.0071 I 
0.0100 ! 


r i ngs 

1ogdsun 
1ograd 

1 ogmoons 
1ogmas s 
1 ogdens e 


0 - 1137 

0.14 11 

-0.0450 
0 * 0078 

0,0056 
0.2 059 


0.9760 

0.6571 

0.92 67 
0 - 9 674 

0.8378 
-0 * 84 60 


0.0665 

-0.6705 

0.3700 

-0-0107 

0.54 58 
0* 4894 


- 0 . 0206 

0.0447 
0 . 0486 
-0,0859 

0,0282 

-0.0061 


0.0292 

0.0966 

-0.0004 

0.0564 

- 0 ■ 0 007 
0.0022 


本例中， Stata 给出了一'个不妙的警告 “ Beware : solution 

点击突出显示的 Hey wood 


a Heywood 


is 


警告可得到对问题的解释，在这里，该问题反 
映出我们的样本量异常的小 （n =9)。出于简洁性的考虑，我们将继续这一分析，但是在 
实际研究时，这就需要重新考虑。 




case 


case 


o 


只有前两个因子具有大于1的特征值。采用 pcf 或 pf 方法，我们可以简单地忽略 
那些次要的因子。但是，在使用 ipf 时，我们必须决定要保留多少个因子，然后重复分析 

以准确地寻找那些因子。这里，我们将保留两个 因子： 

■ 

在 ipf 因子分析后，我们可以和以前一样通过 rotate 和 predict 创建复合变 

量。由于出现了 Heywood 情形的问题，这里的 ipf 因子分比我们之前 pcf 的结果更不 

合理。作为一种研究策略，使用不同的方法常常有助于重复因子分析，通过比较这些结 
果以得到稳定的结论。 


• factor rings logdsun - 1 ogdense , ipf factor ( 2 ) 

( obs =9) 
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Number of obs 
Retained factors 
Number of params 


9 


Factor analysis/correlation 

Method : iterated principal factors 
Rotat ion: ( unrotated) 


2 


11 


solution is a Heywood 

invalid or boundary values of uniqueness) 


Beware : 


case 


(i . e - 


Cumulative 


Eigenvalue 


Difference 


Proportlon 


Factor 


Factorl 

Factors 

Fac t or3 
Fac t or4 

Factors 

Factor6 


3.47412 

1.07 63 1 
0.02013 
0.007 95 
0 * 02182 


0 . 806 1 
0.1940 

0.0043 

0.0008 
-0 • 000 6 
-0,0045 


4.5749 5 
1 . 10083 
0 . 02452 

0.004 3 9 
-0.00356 
-0,02537 


0 . 8 061 
1 .000 0 
1,0043 

1.0051 
1.004 5 
1,000 0 


independent 


saturated: chi2(15) 


100.49 Prob>chi2 


LR test; 


0.0 00 0 


vs . 




Factor loadings (pattern matrix) and unique 


va rlances 


Variable 


Fac tor 1 


Fac t or2 


Uniqueness 


0,9747 
0,6533 
0.9282 
0.9685 

0.843 0 
-0.6294 


0 . 0 537 
-0 . 673 1 

0 .3 605 
一 0, 0228 


0 , 047 0 
0.1202 
0.008 6 
0.0614 


rings 

logdsun 

1ograd 

1 ogmoons 

1 ogma s s 
logdense 


0.5462 
0,4 64 9 


-0 . 0089 
0.09 60 


最大似煞法 


和 Stata 的其他 factor 选项不同，最大似然因子法提供了正规的假设检验，该检 
验有助于确定合适的因子数目。为了得到适合于行星数据的一个单一的最大似然因子， 


键人 


• factor fings logdsun - logdense, ml nolog factor (1) 

(obs = 9 ) 


Factor analysis/correlation 

Method : maximum likelihood 
Rotat ion : ( unrotated) 


9 


Number of obs 

Retained factors 

Number of params 

Schwarz 1 s BIC 

(Akaike 1 s) AIC 




97,8244 
96 . 64 11 




Log likelihood 


-42.32054 






Fact 


fference 


genva 


at ive 


r opor 


on 


actor 


,47258 


• 00 0 0 


.0000 


independent 

1 factor 


LR test : 
LR test: 


saturated : 
saturated : 


chi2(15 ) 
chi2 (9) 


100, 49 Prob>chi2 
51-73 prob>chi2 


0,0000 

0-0000 


vs . 






vs . 




Factor loadings (pattern matrix) and 


unique variances 


Variable 


Factori 


Uniqueness 


0 . 9873 
0.5922 

0.9365 
0.9589 
0 . 8692 

-0.7715 


0.02 54 
0.6493 
0.1229 

0.0805 
0 . 2445 

0 . 4049 


rings 
logdsun 
1ograd 

logmoons 
logmas s 

logdense 


输岀结果包括两个卡方检验 
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似然比检验 : 独立模型对饱和模型 （LR test : independence 

这检验一个无因子（独立）模型对观测相关矩阵的拟合是否显著地比一个饱和或完 

美拟合模型更差。较低的概率值（这里为 0.000 0,意味着 P < 0.000 05 ) 表明无 
因子模型过于简单。 

似然比检验 : 单因子模型对饱和模型 （LR test ： 1 factor 

这检验当前的单因子模型拟合得是否显著地比饱和模型更差。这里较低的 P 值表 
明一个因子也过于简单。 

也许一个双因子模型会更好 一些： 


saturated) 


vs 




saturated) 


vs 


* 


,factor rings logdsun - logdenae , ml nolog factor (2) 

(obs=9) 


Factor analysis/correlation 

Method : maximum likelihood 

Rotation: ( unrota ted) 


Number of obs 
Retained factors 

Number of params 
Schwarz 1 s BIC 

(Akaike ^ s) AIC 


9 


2 


11 




36.6881 

34 . 5187 




Log likelihood 


-6 • 2593 3 8 




Beware : solution is a Heywood 

(i + e , 


case 


invalid or boundary values of uniqueness) 


Dif f 


Factor 


Eigenvalue 


Proport ion 


Cumula tive 


erence 


Fact or 1 
Factor2 


3.64200 

1.97085 


1.67115 


0. 64 8 9 
0 . 3511 


0,6489 

1.0000 


independent vs. saturated : 
2 factors vs - saturated 

(tests formally not va1id because 


LR test: 
LR test: 


chi2(15) 

chi2 (4) 

Heywood case was encountered) 


100.49 Prob>chi2 

6.72 Prob>chi2 


0.0000 

0.1513 








a 


Factor loadings (pattern matrix) and unique variances 


Variable ' 


Uniqueness 


Fact or 1 


Factor 2 


0,0783 
0 .223 6 
0.0003 
0.0850 
0.00 00 
0,0000 


0.8 65 5 
0 . 2092 
0.9844 

0.8156 
0.99 97 

-0*4643 


-0,4154 

-0.85 59 
-0.1753 
-0.4998 
0,0264 

0.8857 


rings ■ 

logdsun | 
lograd [ 

1ogmoons j 
logmass [ 

1 ogdens e i 


我们现在得到了以下 结果： 

似然比检验:独立模型对饱和模型 （LR test '： independence 

第一个检验没有 变化; 无因子模型过于简单。 

似然比检验:双因子模型对饱和模型 （LR test : 2 factors vs . saturated ) 

双因子模型并不显著地比完美拟合模型更差 （P = 0.151 3) 

这些检验表明两个因子可以提供一个恰当的模型。 

执订最大似然因子分析的计算程序常常产生 Heywood 解，即得出了负的方差或零 

queness) 等不切实际的结果。当出现这一现象时（正如我们的两因 

子 ml 例子中出现的那样），卡方检验缺乏正规合理性。但仅从描述来看，该检验仍能提 
供恰当的因子数目的非正规指引。 


saturated) 


VS 


* 


O 


独特性 ( 


zero uni 


聚类分析—1 


聚类分析 （cluster analysis) 包含多种将案例划分成不同组 （ g roups ) 或类 
(clusters ) 的方法，它们都基于观测案例在许多变量上的相异性 
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( dissimilarities ) 0 通常只是用它来做建立经验性类型的探索，而不是用它来检验 

事先所定的 假设。 实际上，对于普通的聚类方法而言，几乎没有什么指导假设检验的正 
规理论。分析中每一步可用选择的数量都多得惊人，而它们又很有可能导致许多不同的 
结果。本节只是提供了进行聚类分析的一个起点。我们先回顾一些基本思路，再通过一 
个简单的例子加以示范。在下一节中，我们将考虑一个略微更大一些的例子。 Stata 的 
《多元统计参考手册》介绍并详细说明了全部可用的选择。 Everitt 等（ 2 001 )更详细 

地讨论了这一主题，还包括许多聚类分析方法之间的有用比较。 

聚类方法分成两个宽泛的类别:划分（ partition) 方法和层次 （ hierarchical ) 

方法。划分方法将观测案例划分到一系列事先设定的不重合的分组中去。我们有两条 
途径做到 这点： 


K 个平均数 ( mean ) 的聚类分析。 

用于设定将要创建的聚类的数目 （ Stata 然后通过迭代过程将观测案例分配 

到具有最接近的平均数的组从而找出这些聚类。 

iC 个中位数 ( median ) 的聚类分析。 

类似于 Kineans 方法，但是采用中位数作为聚类标准。 

划分聚类法在计算上往往比层次聚类法更简单且速度更快。但是对于探索性工作 

而言，事先必须指定聚类的精确数目的要求却又是一个缺点。 

层次聚类法涉及使小群体逐渐融合形成大群体的一个过程。 Stata 在层次聚类分 

析中采用一种聚集方式 （ agglomerative approach ) :它 从视每一个观测案例为独立 

的“组”开始。最接近的两个组被合并，这一过程会不断进行，直到一个设定的停止点，或 
者是将全部观测案例归属于一个组。一种被称作系统树图或树状图的图形能将层次聚 

类结果可视化。有好几种联结方法 （linkage method ) ，它设定在包含多于一条观测案 
例的组之间应当进行比较的内容： 


cluster kmeans 


cluster kmedians 


最短联结法 （single linkage ) 聚类分析。 

将两个组之间最接近的一对观测案例之间的相异性 （ dissimilarity ) 作为两个 

组之间的相异性来加以计算。尽管简单，但是这一方法对特异值或测量错误的耐抗 
性（ resistance ) 较差。观测案例是一次性聚类，往往形成非平衡的、不断加大的 

组。在这些组中，成员很少具有共性，但是又通过中间观测案例连结起来，这种问题 

被称作链接 （ chaining ) 问题。 


cluster singlelinkage 


最长联结法 （complete linkage ) 聚类分析。 

使用两组之间距离最远的一对观测案例作为代表。该方法对特异值没有最短联结 
法那样敏感，但具有相反的倾向，即容易将许多案例聚集成空间紧密的群。 


luster completelinkage 


平均联结法 （average linkage ) 聚类分析。 

使用两个组之间观测案例的平均相异性，产生的属性居于最短联结法和最长联结法 
之间。模拟研究报告表明,这一方法在许多情况下都表现很好,并且合理地稳健 （ 见 

Everitt 等，2001，以及他们所引用的文献）。这种方法常用于考古学中。 


cluster average linkage 


加权平均联结法 （ weighted-average linkage ) 


cluster waveragelirlkage 


聚类分析。 
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中位数联结法 (median linkage ) 聚类分析。 

加权平均联结法和中位数联结法分别是平均联结法和重心联结法的变种。在这两 

种情形中，差异在于不等规模的组在合并时是如何处理的。对于平均联结法和重心 

联结法来说，每一组元素的数量被分解到计算中，并对更大的相应地赋予更大的 

影响（因为每条观测案例权数相同）。对于加权平均联结法和中位数联结法而言，不 

管每组中有多少观测案例，两个组都被赋予相同的权数。同重心联结法一样，中位 
数联结法也很容易受到逆转的影响。 


cluster medianlinkage 


cluster centroidlinkage 


重心联结法 （centroid average linkage ) 聚类分析。 

重心法合并那些平均数最为接近的组（与基于两组元素之间平均距离的平均联结法 
不同）。这一方法容易发生逆转 （ reversals ) ，即某次聚合的点比前面的聚合的相 
异性水平更低。逆转是聚类结构不稳定的迹象，它难以解释，并且不能用 

tree 画 出来。 


cluster 


cluster wardslinkage 


Ward 的联结法 ( Ward’s linkage ) 聚类分析。 


合并能使误差平方和 （ 

当地处理那些多元正态和相似规模的组，但是在聚类具有不相等的观测案例数时表 
现较差。 


of squares ) 增加最少的两个组。尽管可以适 


error sum 


所有的聚类方法都从相异性（或相似性）的某一定义人手。相异性指标反映了两个 
观测案例在设定的一套变量上的差异或距离。总而言之，这种指标在两个相同的观测案 
例上测量的相异性为0，而两个最大差别的观测案例具有的相异性为1。相似性指标正 
好相反，因此相同的案例的相似性为 1。 stata 的 Cluster 选项提供了相异性或相似 
性测量的许多选择。出于计算目的， Stata 内在地将相似性转换成相 异性： 

相异性 =1 -相似性 

默认的相异性指标是欧氏距离 （ Euclidean distance ) ，即选项 L2( 或 Euclidean) 0 

它将观测案例 i 和 j 之间的距离定 义为： ° 

{Z (〜 

k 

其中，是观测案例 i 在变量 X ,上的取值，是观测案例；/在变量 X ,上的取值，合计 
号针对所有被考虑的 X 变量进行。其他基于连续变量测量观测案例之间的相似 （异） 性 

的可用选择还包括欧氏距离的平方 （ L2 squared )， 即 

k 

以及绝对值距离 （ L1 )、 最大值距离 （ Linfinity ) 和相关系数相似性测量 
(correlation )。 基于二分变量 （ binary variables ) 的相异性或相似性的选择包 

括简单匹配 （ matching) 、 Jaccard 二分类相似系数（ Jaccard) 以及许多其他选择。 
请键人 help meansure_option 查看清单和解释。 

在本章的前面 ， planets . dta 中变量的主成分分析鉴别出三种类型的行星：内层的 
坚硬行星、外层的气体巨星和自成一类的冥王星 （Pluto) 

类型”问题的替代途径。因为诸如卫星数量 （ moons ) 和以千克测量的质量等 

这些变量都是以不可比的单位进行的测量，具有极为不同的方差，因此我们应当 以某种 
方式进行标准化以避免结果受到具有最大方差的项目的影响 

的选择就是做平均数为零和标准差为1的标准化。这可以通过 egen 命令来实现（出于 


) 2 } 


X 


_ X 


聚类分析提供了回答行星 


O 


一 个常用的但不是自动 


—1 


一 3 


-4 


9 


9 


9 


9 


1 . 054093 
1 . 2 882 16 
1 . 372751 
1.175849 

1.365167 


1 〜8432741 

1 -1.393821 

-1.3471 
1 -1.207296 

-1.74466 


1 


zrings 

zlogdsun 

z 1 ogr ad 
z1ogmoon 

zlogmass 


Max 


Std. Dev■ 


Mean 


Obs 


Variable 


确认新的 z 变量具有 


和前面讨论中相同的理由，使用对数形式的变量）。 

( 近似的）均值为零和标准差为 1 

std( rings) 

std ( logdaun) 


summarize 


o 


egen zrings 




egen zlogdaun 
egen zlograd = std ( lograd) 




egen zlogmoon = std ( logmoons) 

std ( logmass) 
std ( logdense) 


egen zlogmaas 
egen zlogdens 

zrings - zlogdens 
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1.128901 


1 -1.453143 


-1 . 32e-08 


9 


zlogdens 


主成分分析表明的 “ 三种类型 ” 的结论是稳健的，这也能通过聚类分析来得到。比 
如，我们可以使用欧氏距离 （ L 2 ) 作为相异性测量、并采用平均联结法进行层次聚类分 

(i2airg) 赋予得自这一特定分析结果的一个变量名，因此我们能够在随 


析。选项 

后的命令中引用它们。当我们需要尝试大量的聚类分析并对其结果进行比较时，能对结 


果进行命名的特点就提供了方便 


Q 


cluster average linkage zrings zl ogdsun zlograd zlogmoon zlogmaaa 


( L2 avgr) 

似乎什么都没有发生，尽管我们可能注意到我们的数据集现在包含三个具有基于 12 avg 
的名称的新变量。这些新的 L2avg * 变量并不是我们所直接关注的，但是可以用 

cluster dendrogram. 命令来画出聚类分析树状图或系统树图，将最近的层次聚类分 
析结果可视化（图 I 2 . 4 ) 。这里的 label (planet) 选项使得行星名称（即 planet 的 

取值 ) 在下面的树状图中作为标签显示。 

• cluster dendrogram, label (planet) ylabel (0(1)5) 


zlogdens, L 


图 12.4 
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像图 12.4 这样的系统树图提供了层次聚类分析的主要解释工具。我们能够从底部 
追溯每条观测案例作为自身的聚类到顶部的所有观测案例聚合成一个聚类的聚集过程。 

金星 （ Venus ) 和地球 （ Earth ) 以及天王星 （ Uranus ) 和海王星 （ Neptune ) 都是最少差 

异或最为相似的对 （ pairs ) 。它们首先聚合，在高度（即相异性 ， d 

于1处形成了最早的两个多观测案例聚类。木星 （ Jupiter ) 和土星 （ Saturn ) ，然后是 

金星 一 地球和火星，然后是金星_地球 一 火星和水星，最后是木星 一 土星和天王星 一 海 

王星接二连三地都在相异性为1左右的位置聚合。在这点处，图 12.3 已经建议了与主 

成分分析同样的三个 组：内 层坚硬的行星、气体巨星和冥王星。这三个聚类在更高相异 

性处（大于 3 ) 还仍然保持稳定，直到冥王星和内层坚硬的行星聚合在一起。在相异性接 
近4的水平时，最后的两个聚类聚合了。 


issimilarity ) 低 


那么，到底有多少个行星类型呢？正如图 12.4 所说明的，答案是“要看情况而定％ 
也就是说，看我们想接受每一类型内多大的相异性。图中上部的三聚类阶段和二聚类阶 
段之间的长长垂线表明我们有三种相当不同的类型。我们也可以将此减少到两类，仅需 
通过聚合与其同组中的其他行星极不相似的观测案例（冥王星）。我们还可以扩展到五 
种类型，只需要画出这些行星组（比如，水星一火星与地球一金星）之间的差别,但是按太 
阳系的标准它们之间的差别并不太大。因此，这个系统树图提供了一个三类型方案的 


例子 


命令 cluster 


generate 创建一个新变量，用以标示每一观测案例所属类型或组。 

( L 2 avg ) 选项设定了我们命名为 L 2 aV g 
的特定结果。当我们这一段操作中包含了多个聚类分析时候，这一选项就非常有用了。 


在本例中， group(3) 要求的是三个组 




cluster generate pi an type = groups(3 ) ， 


(L2avg) 




label variable plantype "Planet type 11 
list planet plantype 


planet plantype 


Mercury 

Venus 

Earth 

Mars 

Jupiter 


Saturn 

Ur anu s 
Neptune 

Pluto 


内层坚硬的行星已被编码成 pJantype = 1 ， 气体巨星被编码成加 y pe = 3 ， 
而比其他行星更像外层系统卫星的冥王星被单独编码成 pjantype = 2。组别分配为 
1、2 和3是按照系统树图（图 I 2 . 4 )中最终聚类从左到右的排序。一旦数据被保存，我 
们的新类型在随后的分析中就可以像任何其他分类变量那样来加以使用。 ’ 

这些行星数据具有一种很强的自然分组模式，这就是为什么诸如聚类分析和 主成分 
分析这些不同的技术都得到类似结果的原因所在。我们还可以对这个例子选择其他的 
相异性测量和联结法，仍然会得到极为相似的结果。但是，用复杂或缺乏模式的数据时， 
由于所用方法的细微差别便常常导致极为不同的结果。由一种方法得到的聚类可能并 
不能被其他方法重复，甚至在分析中一些细微的设置不同也会影响最终结果。 








% 8 - Og 

% 8 . Og 
%8 . Og 


s t r 8 
float 

byte 
by t e 

byte 
i nt 
byte 

int 


l nt 

f 1 oat 
by t e 


m t 


byte 


country 

pop 

birth 

death 

chidmort 
inf mor t 

life 

food 

energy 

gnpcap 

gnpgro 

urban 


s choo 11 
s choo 1 2 
s choo 1 3 


Country 

1985 population in millions 

Crude birth rate/1000 people 
Crude death rate/1000 people 

Child (1-4 yr) mortality 1985 

Infant (<1 yr) mortality 1985 
Life expectancy at birth 1985 
Per capit a daily calories 19 8 5 
Per cap energy consumed ^ kg oil 

Per capita GNP 1985 
Annual GNP growth % 65-85 

% population urban 1985 


primary enrollment % age-group 

Secondary enrol1 % age-group 
Higher ed. enroll % age-group 


Sorted by : 


在第 8 章中，我们看到非线性转换（取对数或平方根）有助于将分布加以正态化以及 
将一些变量之间的关系加以线性化。非线性转换的类似思路也能应用于聚类分析，不过 
为了使我们的例子简单，我们将不在这里细究。但是，以某种形式将变量做标准化的线 
性转换仍然是重要的。否则，人均国内产值变量 gnpcap 的取值范围从 100 美元到 
19 000 美元 ( 标准差为 4 400 美元），这将淹没像取值范围从 4 0 年到 78 年（标准差为 
11 年）的预期寿命 Jife 等其他变量。在上一节，我们通过减去每一变量的平均数然后 
除以它们的标准差来标准化行星数据，因此作为结果的所有 z 分的标准差全都为 1 。在 

本节中，我们将采用一种不同的方法，即全距标准化 （range standardization ) ,这 

种方法对聚类分析也能起很好作用 

全距标准化对每个变量除以自己的全距。 Stata 中没有相应的直接命令，但是我们 

能很容易地临时准备一个。 summarize, detail 命令可以计算单变量的统计量，然后 

我们将这些结果作为宏（将第 14 章中介绍）暂存于内存中。名为 ir(rnax ) 的宏暂存变 

量的最大值，名为 r(min) 的宏暂存其最小值。于是，为了创建新变量 rpop , 即变量 

pop ( 人口）的全距标准化值，键入 命令： 


o 


quietly sumzn pop , detail 

generate rpop = pop/( r( ) - r(min)) 

label variable rpop "Range-standardized population 11 

用类似的命令再创建其他生活条件变量的全距标准 化值： 

quietly 

generate rbirth = birth/( r(max) - r( i )) 

label variable rbirth "Range - standardized bith rate 11 


birth, detail 


value 

label 


di splay 

format 


s t or age 
type 


variable label 


variable name 
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聚类分析 一 2 


发现一个简单、稳健的描述九颗行星的类型较为简单。另一个更具挑战性的例子将 
考察 nations .dta 中的跨国数据。该数据集包含了生活条件变量，它们提供了将这些 

国家区分为不同类别的基础信息 


o 


Contains data from C:\data\nations-dta 

109 


Data on 109 nations 

2 Jan 2008 13:31 


1985 


c a. 


obs : 


15 


var s : 


4,578 (99.9% of memory free) 


size: 
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infmort , detail 

generate rinf = infmort /(r(max) - r(min)) 
label variable rinf "Range - standardized infant mortality 11 


quietly 




鲁 


如此等等，就定义了以下所列的 8 个新变量。这些全距标准化变量都具有等于1的 


全距 


o 


describe rpop - rschool2 


value 

label 


display 

format 


s t or age 
type 


variable 


variable label 


name 


float 

float 

f 1 oat 


%9 . Og 
%9 , Og 

%9 * Og 


rpop 
rbi r th 
rinf 


Range - s tandardized population 

Range-standardized bith rate 

Range-s tandardized in f ant 
mortality 

Range-standardized life 
expectancy 

Range-standardized food per 
capita 

Range-standardized energy per 
capit a 


r 1 i f e 


float %9.Og 


r f ood 


f1oat % 9.Og 


float %9 . Og 


renergy 


float % 9 • Og 


Range-standardized GNP 

capita 

Range-standardized secondary 
school % 


rgnpcap 


per 


rschool 2 


float %9 , Og 


rpop - rachool2 


summarize 


Variable 


Obs 


S td. Dev• 


Mean 


Max 
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* 03 74493 
,7452043 
. 4051354 
1.621922 
1,230213 


rpop 

rbirth 

rinf 

r 1 i f e 
r f ood 


.0009622 

.2272727 
. 03 5503 

1.052632 
.7793776 


.1206474 
3098672 

2913825 
.291343 
2644839 


1 - 000962 
1.227273 

1.035503 

2.052632 
1.779378 




109 


m 


109 


■ 


109 




108 


107 


renergy 

rgnpcap 

rschool2 


,159786 
.1666459 
.4574849 


.2137914 

.2319276 

.2899882 


■ 0018464 
0057411 
.0196078 


1.001846 
1.005741 

1.019608 


109 


_ 


104 


在关注变量已经被标准化后，我们就可以继续进行聚类分析。尽管我们将 100 多个 

国家区分成“类型”，但是我们没有理由假定每个类型将包含同样多的国家。和其他方法 

样，平均联结法（就是我们在行星例子中所采用的）赋予每个观测案例同样的权数。随 

着聚集的进行，使得更大的聚类便更有影响。但是，加权平均法和中位数联结法是赋予 

每一聚类同等权数，而不管它包含多少个观测案例。因此，此类方法往往对探测不等规 

模的聚类具有更好的效果。如同重心联结一样，中位数联结也容易受到逆转的影响（在 

这些数据中将会发生），因此下面的例子采用加权平均联结法。绝对值距离 （ L 1 ) 提供了 
我们相异性的测量。 


I ■_ 


cluster waver age linkage rpop - rschool2 ， LI 


(LI wav) 


liEImK 


完整的因子分析提供的树状图被证明大得难以处理 


* cluster dendrogram 

too many leaves ； consider using the outvalue( ) or outnumber ( ) options 
r(198 )； 

根据错误信息提示，在起初出现少数聚合之后，图 l 2 .5 就采用 cutmunberdOO ) 选项 
形成了从只有 100 个组开始的系统树图。 

■ 

luster dendrogram，ylabel (0( .5)3) cutnumber(100) 






图 12.5 中底部的标签根本没办法读，但是我们能够追溯这一聚类过程的一般流程。 
大部分聚合都发生在相异性低于 1 水平。最右边的两个国家很不寻常;它们直到大约 
1.5 水平才聚合，然后形成一个完全不同于所有其他组的稳定的两国之组。这是四个相 
异性仍然大于 2 的聚类中的一个。这四个最终聚类（从左到右）中的第一禾第二个表现 
出异质性，它们经过大量略微不同于大多数子群的连续聚合而形成。相比而言，第三个 
聚类显得更具同质性。它合并了在相异性低于1处聚合成两个子群的许多国家，然后略 

微高于1处聚合成一个组。 

图 12.6 给出了这一分析的另一种视角，这次使用 cutvalue(l) 选项， g 卩只显示那 
些相异性高于1的聚类。 xlabel( , angle(vertical )) 选项，这里实际上并不需要， 

要求垂直而不是水平地显示底部标签 （ G 1、 G 2 等）。 

.cluster dendrogram, ylabel ( ( .5)3) outvalue(1) 


xlabel ( ， angle(vertical)) 


图 12.6 


Dendrogram for LI wav cluster analysis 




正如图 12.6 显示的那样，在相异性大于 1 处仍然有11个组。出于示范目的，我们 

将只考虑顶部相异性高于 2 的 4 个组。 luster generate 将根据上述我们称为 

LI wav 的聚类分析的最后四个组创建了一个分类变量。 


(LI v) 


( )， 


cluster generate ctype 


groups 
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图 12 .5 


Dendrogram for LI wav cluster analysis 
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label variable ctype "Country type 11 


通过键入以下命令 16 ，我们接下来检查每个国家属于哪 一组： 

• by ctype ： list country 

具有相同信息的更简洁的列表呈现在下面。这一列表通过将 nations . dta 的数据拷贝和 
粘贴到数据编辑器中而得到，形成了一个以国家类型作为列的不同的、单一目的数据集。 


ctypel 


c type2 


c ty pe3 


ctype4 f 


China ] 

India L 


Algeria 
Braz i 1 

Burma 

Chile 
Col oxnbl a 


Banglade 

Benin 
Bo 1ivia 

Botswana 
BurkFaso 


Argent in 
Aust rali 
Austria 

Belgium 

Canada 


2 ， 


3 . 


4 . 


5 


CostaRic 
DomRep 

Ecuador 

Egypt 

工 ndonesi 


6 


Denmark 

Finland 

France 

Greece 

HongKong 


Burundi 

Cameroon 

CenAf rRe 
ElSa1vad 
Ethiopia 


7 


8 


9 


10 


11 


] Jamaica 
1 Jordan 

J Maiaysia 
I Mauritiu 

I 

i Mexico 


Hungary 

Ireland 

I srael 
Italy 

J apan 


Ghana 

Guatemal 

Guinea 

Haiti 

Honduras 


12 


13 


14 


15 


16 


Kuwait 
Nether1a 

New2 eala 

Norway 

Poland 


Morocco 

Panama 

Paraguay 

Peru 

Philippi 


IvoryCoa 

Kenya 

Liberia 

Madagasc 

Malawi 


17 


18 


19 


20 


2 1 


SauArabi 
SriLanka 

Syria 

Thailand 

Tunisia 


Mauri tan 
Mo zambiq 

Nepal 

Nicaragu 

Niger 


Portugal 

S_Korea 

Singapor 

Spain 

Sweden 


22 


23 


24 


25 


26 


Turkey 
Uruguay 
Vene zuel 


TrinToba 

u 一 K 
U_S_A 
UnArEmir 
W_Gerinan 


Nigeria 
Pakistan 

PapuaNG 

Rwanda 

Senegal 


27 


28 


29 


30 


31 


Yugoslav 


SierraLe 

Soma 1 i a 
Sudan 

Tanzania 

Togo 


32 


33 


34 


3 5 


36 


YemenAR 

YemenPDR 

Zaire 

Zambia 

Zimbabwe 


3 7 


38 


39 


40 


图 l 2 . 5 中最右边所看到的两国聚类结果就是类型 4 ，有中国和印度。图12 .5 中宽泛 

的、同质的第三聚类即类型 3 涉及一大群主要在非洲的最穷的国家。相对多样化的类型 

包括美国、欧洲和日本，是具有更高生活水平的国家。同样具有多样化的类型1涉及那些 

中等水平的国家。这种或其他的类型是否有意义其实是一个实际问题而不是统计问题，并 

且取决于这一类型的用途。在聚类分析的步骤中挑选不同的选项可能得到不同的结果。 
通过尝试不同的合理选择，我们就可以取得一种关于哪些结果最为稳定的理解。 


2 


16 【译注 :该命 令需要先运行 

ctype , sort 


ctype 对数据按照变量 ctype 进行排序后才能使用。或者，可直接改用 by 

list count 命令或改用 bysort ctype ：liBt countxy 也行 0 】 


sort 


■ 
















时间序列分析 


Stata 的《时间序列参考手册》关于时间序列的功能就有350页。本章只提供一个 

简要的介绍，着手于两个基础性而又实用的分析 工具: 时间的作图和修勻。然后,我们将 
示范相关图、 ARIMA 模型以及对稳态和白噪声的检验。更多的应用如周期图和灵活的 

ARCH 家族模型将留给读者自己去探索。 

关于时间序列的技术以及全套处理可以参见 Hamilton (1994) 0 其他参考文献还 

有 Box,、Jenkins 和 Reinsel ( 1994 ) ， Chatfield ( 1996 ) , Diggle ( 1990 ), 

Enders (1995 ) ， Johnston 和 DiNardo (1997 ) ，以及 Shumway (1988) 

时间序列的操作菜单有下列 标题： 

Statistics-Time series 
Statistics-Multivariate time series 
Statistics-Longitudinal /panel data 
Graphics-Time series graphs 


o 


时间序列 
多元时间序列 
纵贯及面板数据 
时间序列图形 


命令示苑 


y , lags(8) level(95) generate (newvar) 

对变量 y 的自相关进行绘图，包含95%置信区间（默认），按照时滞1至8。将自相 

的前8个值来暂存。 

y, arch(1/3) ar(1) ma(1) 

为 y 的一阶差分拟合一个 ARCH 模型 （ autoregressive conditional 
heteroskedasticity model ，即自回归条件异方差模型），包括 ARCH 的一阶至三阶 

项，以及一阶的 AR 和 MA 扰动项。 

y f arima(3,1,2} 

拟合一个简单的 ARIMA (3,1 ，2 ) 模型。可能的选项包括几种不同估计方法、线性约 

束以及稳健方差估计。 


ac 


关作为新变量 


newvar 


arch 


arima 


y , arima(3^1,2) sarima(1,0,1,12) 

拟合一个 ARIMA 模型，内含一个按 12 个时期划分的季节乘数分量。 

1 LI.xl x2 , ar <1) 


arima 


arxma 


y 
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将 y 的一阶差分对 Xl 、 xl 的时滞1 ( lag -1) 的值以及 x 2 做回归，其中包括 AR ( 1 ) 

MA (1 ) 和 MA (12 ) 扰动项。 

y, lags(8) 

取得自相关、偏自相关，并且对时滞1〜8做 Q 检验。 


corrgram 


dfuller 


y 


进行 Dickey-Fuller 单位根的稳态检验。 

dwstat 

在执行 regrgss 以后，计算 Durbin-Wat son 统计量来检验一阶自相关。 


t(7) 


(y)' 


egen nBwvar 


nomxss 




建立新变量 

点值和终点值 D 


等于跨距7的 y 移动平均数，用较短、未对中的平均数取代起 


newvar^ 


generate date = mdy (month f day f year) 


创建变量 date ， 其值为根据月 ( month ) ^ H ( day ) 、年 （ year ) 三个变量计算的自 
I 960 年 1 月 1 日以来的消逝天数。 

date (sfcr_dat 

创建变量 date , 其值为字符串变量 str _ d <3 te 所转换的消逝天数。字符串变量 

str_date 中包含月、日、年的日期信息，比如，“11/19 /2001”、“ 

12, 1948”。键人 help dates 咨询有关各种日期函数及其选项。 

L3 . y 

建立新变量 neiwar ， 等于 y 的时滞3 ( lag -3 ) 的值。 

_ pac y f lags(8) yline(0) ciopts(bstyle(outline)) 

画出时滞 1 到 8 的带置信区间和残差方差的偏自相关图。图中加入0值水平线，显 
示置信区间为轮廓而不是阴影区域 （ 默认）。 


y M ) 




generate 


t 


4/18/98”或“ June 


generate 


newv^r 


pergram y, generate (newvar) 


画岀变量 y 的样本周期图（谱密度函数)并且创建变量 


等于周期图的粗值。 


newvar 


2 


prais y 


将 y 对 xl ， x 2 做 Prais - Winsten 回归，以修正一阶自回归误差。此外，: prais y 
xl x 2 , core 采用 

smooth 73 y f generate (newvar) 

I 

创建变量 neuA / ar ， 等于跨距 7 的 y 移动中位数 （running median ) ，再按跨距3 

的移动中位数作修勻。复合校平器如 “3 RSSH ” 或 “4253 h ， twice ” 也是可能的。键人 

help smooth 或 help tssmooth 查询其他修匀方法及过滤器。 

ormat(%d) 

将数据集设置为时间序列。时间用变量 date 来表示，时期单位为天 （ daily )。 对于 
“面板” （ panel ) 数据，即一组不同的单位如城市有平行的时间序列, tsset city year 同 
时指定了面板变量和时间变量。本章的大多数命令都要求数据经过 tsset 处理。 


转换进行估计。 


Cochrane-Orcutt 


tsset 


t 
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y f window(2 12} 

对 y 应用移动平均过滤器，创建变量 neiyvar 。 选项 window ( 2 I 2 )通过在每一修 

匀点的计算中用 2 个时滞值、当前观测和 2 个前导值求出跨距 5 的移动平均数。键入 
help tssmooth 查询其他可用的过滤器，包括加权移动平均数、指数或双指数、 

Holt-Winters 以及非线性等过滤器。 


tssmooth ma nBwvar 


y, smoother(4253h,twice) 


tssmooth nl nBwvar 


对 y 应用一个非线性修匀过滤器，创建 

twice) 迭代求出跨距为4，2，5，3的移动中位数，然后应用 Hanning 加权函数,然后再 
重复这个过程于残差 。 ts smooth nl ， 与其他 tssmooth 程序不同，它在缺失值周围不 

能工作。 

wntestq y, lags(15) 

对白噪声进行 Box-Pierce 混合 Q 检验 （ corrgram 也可做此检验） 

y, lags(8) xline(0) 

画出输入变量 X 和输出变量 y 之间时滞为 1-8 的交互相关图。 

可以提供文本方式的输出，其中包括实际相关（如果包括 generate ( newvar ) 选项便 

将这些相关存为一个变量)。 


选项 smoother ( 4253 h ， 


newvar 


o 


xcorr 


y，table 


xcorr 




修匀 


许多时间序列数据都展示忽上忽下的波动，以至很难辨别背后的模式。修匀 
(smoothing) 这样的序列就是将数据分解为两部分，一部分为逐渐的变化，另一部分是 

“粗糙”部分，包含那些其余的迅速 变化： 


修匀部分 

数据文件 MJTLi ^ ater . dta 包含了美国新罕布什尔州米尔福镇1983年前7个月的日常 

用水数据 （ Hamilton ，1985 b ) 0 


粗糙部分 


数据 


Contains data from MILwater,dta 

obs : 


1/1/83 


Milford daily water 

- 7/31/83 
27 Jul 2005 12:41 


212 


use 


vars 


2 120 (99.9% of memory free) 


size 


storage display 
variable name type format 


value 

label 


variable labe 二 


Og 


Month 

Date 

Year 

Water use in 1000 gallons 


month 

day 

year 

water 


Og 


Og 


Sorted by 


在进行分析以前，我们需要将月日年信息转换为表示时间的一个数量指标。 stata 

的 mdy () 函数可以做这种工作，创建一个消逝天数变量（这里称为 date )， 表示自1960 

年1月1日以来的天数。 


generate date = mdy (month / day 7 year) 
list in 1/5 







520 8401 
600 8402 
610 8403 
590 8404 
620 8405 


520 


01jan1983 
02janl983 
03janl983 
04janl983 
05janl983 


600 


610 


590 


620 


1 / 


list 


tsset date, format(%d) 

time variable : 


date, 01janl983 to 31jull983 


作为参照日期的 1%0 年 1 月 1 日是一个硬性规定的默认值。我们可以为 date 提供更 

好理解的格式化，再将我们的数据设置好以便后面的分析，所用的命令 tsset (意为时间 
序列设置 ， time 

显示格式为％ d (其中代表日常 （ daily ) 格式） 


set ) 将 date 作为时间指标变量来识别，并且指定这一变量的 


senes 


新变量 date 的日期格式，如 “OS jan I 983 ” 比起原来的数值如 “8405 ”（即自 1960 年 

1月1日以来的天数）可读性更强。如果需要，我们也可以用％格式化得到其他格式， 
比如，“05 Jan I 983 ”或者 “01 /0 5 / 83 ”。 Stata 提供很多种变量定义、显示格式、数 

据集格式等,这些对于时间序列分析都很重要。这些当中有许多涉及日期的输人、转换 
和显示。全部的日期函数描述请参见《数据管理参考手册》和《用户指南》，或者在 

Stata 内键人 help dates 进行探索。 

在 water 和 date 的两维标绘图中， date 值被加上日期标签，可以看出用水量按 

天的变化，同样也可以看出一到夏天用水量就处于上升趋势（图 13.1) ： 

_ 

, graph twoway line water date, ylabel(300(100)900) 

I 图 13.1 


31decl982 


19feb1S83 


10apr1|Q3 


^ 30m»y1983 

•• ■ • t 1 ■••••"• 



month 


day 


wate r 


date 


year 
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month 


day 


date 


water 


year 








8 8 8 8 8 
9 9 9 9 9 


8 8 8 8 8 
9 9 9 9 9 
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13 时间序列分析 


视觉检查在时间序列分析中起重要的作用。如果我们通过对每一点的当前值、前导 
点和后续点计算“移动平均数”来修匀数据，常常能够使我们在参差不齐的序列中看到潜 

of span 3 ) 就是指 y t 4 、 


在的模式。比如，“跨距 3 的移动平均数 ” （ movin g average 

的平均数。我们可以用 Stata 的明确下标来建立 （ generate) 这样的变量: 


和 y 


-1] + water[ n] + water[_n+l]) /3 


(water[ 

或者，我们也能应用 egen 命令中的 ma 函数（即 moving average ) 来做 


ter3 


r«i 


generate 




(water), nomiss t(3) 


ter3 








egen 


要求在序列两端计算较短跨距和不对中的移动平均数，否则新变量 
的第一个和最后一个值将为缺失。选项 t ( 3 ) 要求按跨距 3 来计算移动平均 

数，跨距可以定为任何大于等于 3 的奇数。 

对于时间序列 （ tsset ) 数据， tssmooth 命令提供了多种强大的修勾工具。除 

1以外，所有修匀都能处理缺失值。 


选项 


nomxs s 


wat er3 


ts smooth 

tssmooth 
ts smooth exponential 
tssmooth dexponential 
tssmooth hwinters 


移动平均过滤器，可加权或不加权 


IA® 


单指数过滤器 
双指数过滤器 

非季节性的 Holt - Winters 修匀 

季节性的 
非线性过滤器 


修匀 


Holt-Winters 


tssmooth shwinters 
tssmooth nl 

键人 help tssmooth_exponential 、 help t 


smooth_hwinters 等以咨询每种命 


令的语法 


图13 .2 画出了米尔福镇用水的简单 5 天移动平均数 （ u^terS )，同时展示了原始 

数据 （ water ) 。这一 graph two way 命令将 waters 修匀值的绘线与 water 原始数据 

值的绘线（细线）重叠在一起了。横轴标签标志起始月份值是通过“手工”选择的（ 84 01， 

8432等），以使图形更好理解。将标签格式化为％ dmd ( Br 月日”日期格式）。请比较 

_ 

图13 .2 的标签与其默认设置的图13 _1。 


indow(2 1 2) 


.tssmooth ma waters = water, 

The smoother applied was 

(1/5) * [x (t-2) 4 - x(t-l) + l*x(t) + x { t + 1) + x(t + 2)]; x (t) 


water 




graph twoway line waters date f clwidth(thick) 

fce, clwidth(thin) clpattern(solid) 


I line water 

I , ylabel(300(100)900) 

label(8401 8432 8460 8491 8521 8552 8582 8613 




grid format(%dmd)) 
title( M n ) ytitle(Water 


in 1000 gallons) 

legend(order(2 1) position(4) ring(0) rows(2) 

label (1 "5-day average' 1 ) label ( 


use 


daily water use ’’）） 
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图 13.2 




C- 

O 


5 


% 


18 


o 

o 


daily water use 
5-day average 


o 


Janl Febl 


arl 


Aprl 


ayl Junl Jull 


移动平均数也有其他基于平均数的统计量的共同缺点：它们对特异值没有抵抗力。 
由于特异值在图 13.1 中形成了许多突出的针尖，我们也可以尝试采用不同的修勻方法。 

1执行对特异值有抵抗力的非线性修匀，它所应用的方法以及有关术 

语可参见 Velleman 和 Hoaglin ( 1981 ) 以及 Velleman (1982 ) 的文献。比如： 


命令 tssmooth 


tssmooth nl 


ter5r 


ter, smoother(5) 


1 




这个命令创建了一个名为 u^aterS r 的新变量，保存按跨距 5 的移动中位数对 waters 

匀后的值。可以按 Velleman 原始标注那样定义出复合校平器 （ compound 
smoother ) ，采用不同跨距的移动中位数，再伴以 “Hanning 加权函数” （ 即按跨距3进 

订1 / 4 、1 、1 / 4 加权的移动平均数）和其他技术。有 一 种称为“4253 h , twice ” 的复 

合校平器显得特别有用。将其用于 water , 我们就计算出修勻变量 


water 4 r 


tssmooth nl 


ter4r 


ter, smoother(4253h,twice) 




图 1 3 _ 3 画出了新的修匀值 water 4 r 0 比较图 1 L 3 与图 13*2 就看出这个 
“ 42 53 h ， twice ” 修匀相对于一个移动平均修勻的功夫了。尽管两个校平器有着同样的 

跨距，但是 “4253 h ， twice ”修匀在减少参差不齐的变异上做得更多。 


13*3 


c 


daily water use 
4253h, twice smooth 


Jaril Febl Marl Aprl 


ayl Junl Jull Augl 
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有时，我们修匀的目标是在修匀标绘图中寻找模式^然而，就这一特定数据而言，修 
勻以后的“粗糙”即残差实际上更有意思。我们可以计算出原始数据与修匀数据之间的 
差来作为其粗糙程度，然后将这些结果画成另一幅时间标绘图，图 I 3 . 4 。 

ter4r 


water 


generate 

label variable rough "Residuals from 4253h f twice 




rcu 


graph twoway line rough date , 

label(8401 8432 8460 8491 8521 8552 8582 8613 

grid format (%dmd) ) xtitle ( 11 n ) 


Ki 


图 13.4 


8 


O 


s 




g 




E 


图 13.4 中最严重的波动发生在 3 月27至29日。用水量突然急剧下降，又重新升 

高，然后在恢复到通常水平之前下降到更低。就在这些日子里，本地报纸说，供应本地用 
水的一口井中发现了有害的化学废料。最初的报导警告了居民，并且后来在有问题的水 
井被查封以后又再次得到证实。 

本节描述的修匀技术只有当观测在时间上具有相同间隔时才更有意义。如果时间 
序列有不一样的间隔 , lowess 回归提供了一种实际的替代方法（参见第8章）。 


更多时 网椋给固例子 


数据集 atlantic . dta 包括了北大西洋 1950 — 2000 年时间序列的气候、海洋和 
渔业变量（原始数据来源包括 Buch ( 2000 ) ,其他引用见 Hamilton 、 Brown 和 
Rasmussen (2003 )) o 变量中还有西格陵兰外菲拉堤岸 （Fylla Bank ) 的海洋温度，格 

陵兰首府努克市的气温，两个气候指标称为北大西洋振荡 （ NA 0) 和北极振荡 （ A 0) ，以及 
西格陵兰水域的鱼虾捕获量。 

在分析这些时间序列数据以前,我们用 tsset 命令设置这一数据，告诉 Stata 变 
量 year 包含时间顺序的信息。 


t 


t year, yearly 


time variable 


year, 1950 to 2000 


在一个 tsset 数据中，有两种新的选择条件 可用： tin (即在 [ tl ， t 2] 之间的时 



wAO 
t codl 

tshrimpl 


float 

float 

float 


year 

fy11temp 
fyllsal 
nuuktemp 
wNAO 


float 
f loat 
float 
float 


storage display 
type format 


variable name 


variable label 


Year 

Fylla Bank temp * at 0-4 Om 
Fy11a Bank salinity at 0-4 0m 
Nuuk air temperature 
Winter {Dec - Mar) 

Lisbon-Stykkisholmur NAO 
Winter (Dec-Mar) AO index 
Division 1 cod catch, 10001 

Division 1 shrimp catch, lOOOt 


value 

label 


Sorted by: 


year 


list year fy11 temp wNAO if twithin(1950,1955) 


fylltemp 


wNAO 


year 


1951 

1952 

1953 

1954 


2 


-1.26 


3 


83 


4 


2.1 


18 


5 


2.3 


13 


我们用 ts smooth nl 来定义一个新变量 fyll 4 ，存放 “ 4253 h，twice ”对 

fyJJteinp (数据来自 Buch ， 2 000 ) 的修匀值。 

fyll4 = fyl 1 temp f smoother(4253h, twice) 

_ 

图 l 3 . 5 绘岀了菲兰堤岸水温的原始值 （ fyiJtemp ) 和修匀值 （ fyll 4 )。原始水温 
显示为平均数( I . 67 尤）离差的芒线图，所以这个图强调了 10年周期和每年的变化。 

graph twoway spike fyllt^mp year, base(1,67) yline(1.67) 

|| lin fyll4 year f clpattern(solid) 

|| , ytitl ( H Fyll Bank temperature, degrees C") ylabel (0 (1)3) 

xtitl ("”> xtick(1955(10)1995) legend(off) 


tssmooth nl 
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)* twithin (即在 （ tl ， t 2 ) 之内的时间， times within ) 。 要列出 


间 ， times 

1950—1955 年的菲拉温度和 NAO 值，键人 


m 


list year fylltemp wNAO if ti (1950 , 1955) 


fylltemp 


wNAO 


year 


1950 

1951 

1952 

1953 

1954 


2 奢 1 


2 


9 -1.26 


3 


1 


83 


4 


2 - 1 


18 


2.3 


5 


13 


6. I 1955 


1*2 


-2.52 


twithin 选择条件的使用十分类似，但是选择不包括两个端点 


Con tains data from atlantic,dta 
obs 

var s 

size 


51 


Greenland climate & fisheries 
27 Jul 2005 12:41 


8 


1734 (99.9% of memory free) 






g g g 

o o o 


9 9 9 

% % % 


g g 9 9 

o o o o 


y 


t 9 9 9 9 

% % % % % 
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图 13,5 




a> 


a 




<0 ™ 
QQ 


1970 


1960 


1950 


图 13.5 中的修匀值展示了水温一般从较暖到较冷的时期并不规则。当然，“较暖” 
是相对于格陵兰而言的，其夏天的水温也从未高过3 .34 X (37 ° F )。 

菲兰堤岸的温度受大规模大气模式的影响，这种大气模式称为北大西洋振荡或 
图 13.6 画出了修勻温度，同时画出了 NAO 的修勻值(新变量 )。 在这一重 

叠图中，左轴即 yaxis(l) 为温度，右轴即 yaxis( 2 ) 为 NAO 。 其他 y 轴选项进一步指 
定是参照轴 1 还是参照轴 2 。比如, yline(0, axis( 2 )) 画出的水平线标志了 NAO 指 

标的0点。在两边的坐标上，数值标签都是水平排印的。图例按 5 点钟位置显示于图中 

空间里，选项为 E>osition(5) ring(0 )。 


NAO 


o 


graph twoway line fyll4 year, yaxis(1) 

ylabel(0(1)3, angle(horizontal) nogrid axis(1)) 
ytitle ( 11 Fylla Bank temperature, degrees C 
|| line wNA04 year, yaxis(2) ytitle("Winter NAO index ”， 
ylabel(-3(1)3, angle(horizontal) axis(2)) yline(0, axis(2)) 

xtitle( MM ) xlabel(1950(10)2000, grid) xtick(1955(5)1995) 

legend (label (1 M Fylla temperature <f ) label (2 "NAO index") cols (1) 

position(5) ring(0)) 
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重迭标绘图提供了一种方法用视觉检查几种时间序列如何一起变化。在图 13 

中，我们看到了负相关的 迹象: NAO 高时对应着低温度。这种相关背后的物理机制涉及， 

在高 NAO 阶段，北风将北极空气和海水带到西格陵兰。温度与 NAO 的这种负相关在这 

一时间序列数据的后面一段变得更强,大概在 I 973 —1997 年期间。我们将在后面再来 
讨论这种关系。 


6 




时滞、箭导和差令 


时间序列分析经常涉及时滞变量，或者说就是前次观测的值。时滞 （ lag ) 能用明确 
下标来定义。比如，下面这个命令创建的变量 WNAOJL 等于前一年的 NAO 值： 


_ generate wNAO_l 

( 1 missing value generated) 


wNAO[ n-1] 


另一种方式也能取得同样的结果，即采用 tsset 数据时，再加上 Stata 的 L •(表示 
lag ) 运 算符： 


• generate wNAO_ 1 

(1 missing values generated) 


L .wNAO 


时滞运算经常要比明确下标的方法更为简单。更重要的是，时滞运算也能用于面板数 
据。要建立时滞2的值，可用以下 命令： 


• generate wNA0_2 = L2 .wNAO 

(2 missing values generated) 

_ list year wNAO wNAO_l wNAO 2 if tin (1950,1954) 


wNAO wNAO 1 


wNAO 2 


year 


1950 

1951 

1952 

1953 

1954 


1 * 4 


* 

1 ♦ 4 


2 


一 1.26 


3 


83 


一 1.26 


4 


4 


18 


83 


-1.26 

* 83 


5 


13 


18 


我们还可以用另一种命令来取得同样的清单、但不用建立任何新的变量 

list 


year wNAO L .wNAO L 2. wNAO if tin (1950,1954) 

L •运算只是简化 tsset 数据运算的几种方法 之一。 其他昀时间序列运算还有 E 

(刖导， lead ) 、D .( 差分， difference ) 以及 S •( 季节差分， seasonal difference ) 

这些运算符既可以采用大写也可以采用小写，比如， f 2 . wwao 或 f 2 . wwao 都行。 

时间序列运算 


时滞 y t _ x (L1 •意味着同样的定义) 
2期时滞 y 

前导 y t+1 

2期前导 y 

差分 y 

2阶差分 （y 

季节差分 y 
2期季节差分 y 


L 


^2 (类似地可定义 L 3 •等。 L ( l /4) •则定义从 L 1 •直到 L 4.) 

( F 1 .意味着同样的定义） 

, 2 (类似地可定义 F 3 •等） 

-1 ( D 1 •意味着同样的定义） 

X ) - (y t - 

(它与 D .定义相同） 

-2 (类似地可定义 S 3 . 等） 


L 


t 


P2 


-y 




) (类似地可定义 D 3 .等) 


-y 


-y t - 


-y 


S2 


一 y 








Number of obs 
F( 4, 

Prob > F 
R-squared 
Adj R-squared 
Root MSE 


MS 




df 


SS 


Source 


20 ) 


797122826 

174464562 


4 


3.1884913 
3,48929123 


Model 

Residual 


■ 


20 


4 




24 .278240939 


TotaJ 6 - 67778254 


在季节差分的情况下, SI 2 •并不意味着“12阶差分”，而是指时滞为 I 2 期的一阶差分 

比如，如果我们有按月的温度而不是按年的温度，我们可能想计算 
是2000年12月温度与 1 S 99 年 I 2 月温度之差，如此等等。 

时滞运算可以直接置入大多数分析命令中。我们可以将 I 973 — I " 7 年的 
fyl 1 1 emp 对修匀变量祕 AO 做回归，再加上时滞分别为1、 2 、 3 年的自变量祕 AO , 这并 

不需要事先创建任何时滞变量。 

fylltemp 


P ， 那么它将 


sl2. t 


tin(1973,1997) 


wNAO LI.wNAO L2.wNAO L3.wNAO i 


regre 
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[95% Conf, Interval] 


P> I t 


Std. Err 


t 


Coef 


fyl1temp 


wNAO 


0826931 
0922905 
058774 
1298102 
1 _ 981063 


2549917 
0835294 
1533725 
0768738 
1 . 474763 


0 - 001 
0 , 918 

0.363 

0.599 

0*000 


-4.09 
0 • 10 
-0.93 

0.53 

14.24 


0412995 
0421436 
- 050851 
0495416 

1213588 


1688424 

0043805 

0472993 
0264682 
1.727913 








* 


_ 






■ 


骨 


LI 

L2 

L3 




■ 




■ 


_ 




■ 






_ 




■ 


■ 


* 




cons 


■ 


与此等价,我们也可以键入以下 命令： 

fylltsmp L (0/3) *wNAO 


ti (1973,1997) 


regress 


所估计的模型为 

=1.728 -0.169 + 0 . 00 AwNAO 

所有时滞项的系数统计性都不显著，看起来 wmo 的当前值（非时滞）提供了最简约的预 
测。的确，如果我们再重新估计这个模型并取消那些时滞变量，那么调整的 

( adjusted ) i ? 2 就从原来的 0.37 提高到0.43。然而，这两个模型都是很粗糙的。对自 
相关误差的 Durban - Watson 检验虽然也是不确定的，但是在这样的小样本上它并不太 


- 0 . 0 A 7 wNAO t _ 2 ^ 0 . 026 wNAO 


t -3 


t -1 


可靠 


dwstat 


1 • 423806 


25) 


Durbin-Watson d-statistic( 5, 




在时间序列分析中常常遇到自相关误差，它的存在通常使 0 ls 估计的置信区间和统计检 
验无效。对时间序列更恰当的回归方法将在本章后面加以讨论。 


相共图 


自相关系数用于估计一个变量与其自身某一时滞之间的相关。比如 ，一 阶自相关 

( first-order autocorrelation ) 是 y t 和之间的相关。二阶自相关则是指 

Cor [y t ,y t _ 2 ] ,以此类推。相关图 （ correlogram ) 可以画出相关与时滞之间的关系。 

Stata 的 corrgram 命令提供了简单的相关图和有关的 信息。 它所显示的最大时 
滞是由数据所制约的，可以用 matsize 调用最大时滞，或者用 lags( )选项来指定任意 

的较 小值： 
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0 , 4141 
0 .0565 
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-0 ,0556 
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0*04 90 
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时滞 （ LAG ) 列在表的左边，接着列有自相关 （ AC ) 和偏自相关 （ PAC )。 比如，在 

办： Hte 呵 v 2 之间的相关为 0.199 6,相应的偏自相关（已经调整了时滞 
1) 为0.0 56 5。 C 统计量（即 Box - Pierce 混合法）检验的是一系列虚无假设，即所有各 

种时滞的自相关都为0。因为这里看到的绝大多数 P 值都低于0.05,我们能够拒绝这些 

■ 

虚无假设，认为 fylltemp 存在显著的自相关。如果0统计量的 P 值不低于0 .05 ，我们 
就能够肯定这个序列是不含显著自相关的“白噪声 ” （white noise )。 

在这一输出的右侧是用字符构成的自相关与偏自相关的标绘图。审查这种图对于 
设置时间序列模型很重要。更精细的自相关标绘图可以通过 AC 命令来 取得： 

fylltemp r lags (9) 

得到的相关图，图 1 3 . 7 , 包括了 M % 置信区间的阴影区域标注。在这一区间之外的那些 
相关都是个体显著的。 


个类似的命令 PAC 可以提供图 US 那样的偏自相关图。近似置信区间（将标准 

误按1//^来估计)也显示在图 I 3 . 8 中。命令 AC 和 PAC 的默认图形就像图 13.7 那样。 

而对于图 13. 8 ，我们选择了不同选项，绘出了 0相关的基准线，还将置信区间表示成轮 
廓、而不是阴影区域。 

• pac fylltemp, yline(0) lags(9) ciopts(b tyle(outline)) 


■ ■■ 
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Bartl^ffs formula for MA(q) S5% confidence b^nd$ 
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corrgram fyllt&mp r lags(9) 




■ 


0 




LAG 


AC 


PAC 


Q 


Prob>Q [Autocorrelation: 


[Pa rtial Autocor ’ 

_ ■ 


i3S 






0 19 8 2 5 3 
3 4 9 2 4 9 3 
0 0 0 2 2 3 6 

0000000 


2 7 3 
8 4 4 

3 0 2 

# ■ • 

3 4 7 


2 0 7 0 

3 8 6 1 
2 8 3 5 
2 0 12 


0000 





图 13.9 


交叉相关图有助于探测两个时间序列之间的关系。图 13.9 显示了 WNAO 和 
jfyllte / np 在1973 —1997年之间的交叉相关图。在时滞为0时的交叉相关很强，而且 

是负相关，但是在其他正的或负的时滞时，交叉相关接近于0。这表明，这两个序列之间 
的关系是“即时的 （ instantanious ) ”（在每年数据中），而不是滞后的或是分布于好几 

年中的。请回忆，我们前面所做的 OLS 回归中，时滞自变量就都不显著。 


wNAO fylltemp if tin (1973 f 1997) , 1 gs (d) xlabel (-9(1) 9 r grid) 


xcorr 


命令中先列出自变量、后列出因变量，就像在图 13.9 中那样，那 

时的因变量之间相关。于是，我们看到 


如果我们在 

么正的时滞表明 t 时的自变量与 t + l、t +2 

在冬季的 NAO 指标与4年以后的菲拉温度之间的相关为0.3 94。 

实际交叉相关系数以及文本版的交叉相关图能够通过加上 table 选项来取得 


xcorr 


wNAO fylltemp if tin (1973,1997) f lags (9) tabl 


xcorr 
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图 13.8 
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ARIMA 棋型 


时间序列数据的自回归集成移动平均法 （ ARIMA ， autoregressive integrated 
moving average ) 模型能够使用 arima 命令来估计。这个命令包含了简单的自回归 
( AR ) 、移动平均 ( MA ) 以及任意阶的 ARIMA 模型。它还能估计包括一个或多个自变量以 

及 AR 或 MA 误差的结构模型。这种结构模型的通用形式用矩阵来表示 就是： 


[ 13 - 1 ] 

其中 h 为因变量向量在 t 时的取值&是自变量值的矩阵(通常还包括一个常数），叫是 
扰动向量。这些扰动可以是任意阶上的自回归或移动平均的扰动。比如， ARMA (1，1) 

的扰动为： 


y t = xfi + fji t 


17 


i + 6 B 


[ 13 * 2 ] 


+ G 


= p/v 

其中是一*阶自相关参数， 0 是一'阶移动平均参数， e 是白噪声 ( no_rmal 
态独立同分布)扰动。 arima 可以拟合简单模型，作为公式 [13.1 ] 和 [13.2 ] 的特例，用 
一 个常数 （ 成> ) 代替其中的结构项所以,简单的 ARMA ( 1,1) 模型 成为： 


i.d •，即正 


1 


Jt = A ) + 叫 


= A) + 糾卜 1 + 0 e f _i + e 


[ 13 . 3 ] 

某些来源提供了一种不同的版本。在 ARMA (1，1) 的情况下，他们将作为以前 
值（即 7,^) 和当前扰动 （ e ,) 以及时滞扰动 （ En ) 的 函数： 


J 


[ 13 . 4 ] 

因为在这种简单结构模型:=啟+〜中，公式 [ l 3 . 3 ]( Stata 的版本）与公式 [13.4] 等 
价，只是改变了常数尺度，即 a = (1 -p)/3 0 

时，一个 ARMA (1，1) 模型（即公式 [ H 3 ]) 可以任用以下两种方式 


+ py^x + 0 


jt 


[ 卜1 




o 


使用 


arxma 


之~ 


【译注： ARMA 是自回归移动平均法的缩写，即 autoregressive moving average 0 】 
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y, ar(1) ma(1) 


arxma 


或 


y f arima(1,0,1) 

arima 中的 i 代表“集成” （ integrated) ，指那些还涉及差分的模型 d 要拟合一个 

ARIMA(2,1 ,1 ) 模型，使用以下 命令： 

( 2 , 1 , 1 ) 


arima 


arima 




arxma 


或者用等价的 命令: 


y f ar(1 2) ma(1) 

这两个命令定义了一样的模型，其中因变量的一阶差分 （ 

阶差分 ( y t —；l 

要估计一个其中 y t 依赖于两个自变量 x ( 当前值和时滞值，即 x t 和 
有当前值％ ) 、并包含 arima(i,0,1) 误差的结构模型，恰当的命 令为： 

( 1 , 0 , 1 ) 


arima 


y t 是前两个时滞的一 

) 和当前与以前扰动 （ ^和 ey )的函数。 


和 V 


-y 


y 


t -2 


t -2 


t -3 


)和 w (只 


X 


L 


arima 


y 


arima 


尽管季节差分 （ 比如 , SI 2 . y ) 和（或）季节时滞（比如, L 12 . x ) 也可以包括在内，但是按 
以上所写的命令， arima 并不估计乘积型 ARIMA ( p ， d ， g ) ( P ， L »，(?) s 的季节模型。 

当时间序列 y 的平均数和方差不随时间变化,并且当 y t 和 


之间的协方差只依 

赖于时滞 u 而并不依赖于某一特定 t 值，那么这个时间序列 y 就被认为是“稳态” 

(stationarity) 。 ARIMA 建模时假定，我们的序列是稳态的，或者可以通过适当的差 

分或转换形成稳态。我们可以通过审视时间标绘图中水平或方差的趋势来非正规地检 
查这一假定。对“单位根 ” （unit root )( —个非稳态的 AR (1) 过程的 Pl = 1，也被称为 

“随机散步”）的正规统计检验也有所帮助。 Stata 提供三种单位根 检验: pperroii (即 


y 


t + u 


Phi Hips-Perron 检验） ， dfuller ( 即扩展的 Dickey-Fuller 检验），以及 dfgls 

(应用 GLS 的扩展的 Dickey-Fuller 检验，通常是比 dfuller 更为强大的检验）。 

应用到菲拉堤岸温度数据， pperron 检验拒绝了单位根的虚无假设（ P < 0 .01) 


o 


pperron fylltemp f lag(3) 


Phi Hips-Per r on test for unit root 


Number of obs = 
Mewey-West lags = 


50 


Interpolated Dickey-Fuller 

5% Critical 

Value 


Test 

Statistic 


1% Critical 

Value 


10% Critical 


Value 


Z (rho) 

2 (t) 


-29*871 

-4.440 


-18.900 
-3,580 


^13.300 
-2.930 


-10,700 
一 2,600 


MacKinnon approximate p™value for Z(t) 


0* 0003 




与此类似， Dickey-Fuller 的 GLS 检验评价的虚无假设为 fy 11 1 emp 有一个单位 

根（对应的替换假设为 :它是 稳态的，有一个很可能为非 0 的平均数，但是没有线性的时 
间趋势），检验拒绝了虚无假设 （ P<0.0 5 )。 于是，两个检验都肯定了从图 13.5 获得的 

稳态视觉印象。 

dfgls fylltemp f notrend maxlag(3) 
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DF—GLS for fylltemp 


Number of obs 


4 7 




1 % Critical 

Value 


DF-GLS mu 
Test Statistic 


5% Critical 

Value 


10% Critical 

Value 


[lags] 


3 


-2 - 304 
-2-479 
-3.008 


-2.620 
-2.620 
-2.620 


- 2.211 

-2.238 

-2,261 


*1,913 
-1 + 938 
-1 . 959 


2 


Opt Lag (Ng-Perron seq t) 


0 [use maxlag(0)] 
6735952 at lag 1 with RMSE 
-.2683716 at lag 2 with RMSE 




6578912 




* 


_ 


Min MAIC 


6569351 




* 


对于一个稳态序列，相关图提供了关于选择一个初步的 ARIMA 模型的 指导： 

一个 P 阶自回归过程存在自相关，它随着时滞的增加而逐渐衰减。在时 
滞 P 以后，偏自相关就断绝了。 

一个 g 阶移动平均过程存在自相关，在时滞 g 以后，自相关就断绝了^ 
偏自相关随着时滞的增加而逐渐衰减 

ARMA ( p , gr ) 一个混合的自回归和移动平均过程存在自相关和偏自相关，随着时滞的 

增加而逐渐衰减。 


AR ( p ) 


MA( g) 


o 


相关图中在季节时滞上的尖芒（比如，在按月的数据中的12、24、36号）表明了季节性模 
式。辨认季节模型服从于类似的指导方针，但是要在自相关和偏自相关分析时按照季节 


时滞 


o 


图 I 3 . 7 和图 I 3 . 8 微弱地表现为是个 AR (1) 过程，所以我们将其作为的 
简单模型来试一试。 


fylltemp f 


(1 


)nolog 


arxma 


anma 


ARIMA regression 


Sample : 1950 to 2000 


Number of obs 
Wald chi2(1) 
Prob > chi2 


51 


7.53 

0.0061 


Log likelihood = -48.66274 


OPG 

Std. Err 


fylltemp 


Coef 


P> [ z 


[95% Conf * Interval] 


z 


fylltemp 
cons 


1.68923 


1513096 


11.16 


0.000 


1.392669 


1 - 985792 


■ 


ARM A 


ar 




4095759 


1492491 


2.74 0.006 


1170531 


7020987 


_ 


_ 


■ 


/ sigma 


627151 


0601859 


10,42 0 * 000 


5091889 


7451131 




蕾 


_ 


在我们拟合了一个 arima 模型以后，它的系数和其他结果以 Stata 通常的方式被 
暂时保存起来。比如，要想看看最近的 AR (1) 模型的系数和标准误，可以 键人： 

]b[Ll.ar] 


display [ 

4095759 

display [ARMA]_se[LI,ar] 

14924909 一 






m 


这一例子的 AR ( 1 ) 系数统计性显著地区别于0 ( z = 2.74 ， p 

恰当的一个迹象。第二个检验是残差是否表现为不相关的“白噪声”。在执行了 
以后，我们可以通过 predict 来取得残差（也可取得预测值和其他案例统计量） 


0.006 )，提供了模型 


arima 








0176 


_ 


0*7566 


0.7024 
0.7060 
0.7169 


0 _ 6594 
0,6214 


-0 


0 


一 0 


-0 


0 


- 0 


-0 


一 0 


0 


0 


0 


-0. 0547 
-0.2837 


0 # 1091 
0,1014 
一 0 *0673 


-0.0028 


-0.2055 

-0.1156 

0.1397 


-0.0498 

0.1532 

-0.0567 


2 


3 


4 


5 


6 


7 


10 


11 


12 


13 


14 


15 


Portmanteau test for white 


noise 


writes tq fyllres f lags (15) 


corrgram 的 0 检验发现，直到时滞15，残差中并没有显著自相关。我们还能通过对时 
滞15做一次 wntestq (即用0统计量检验白噪声， white 
statistics ) 也能得到同样结果 


test Q 


noise 


o 


10 . 9435 

0 . 7566 

根据这些标准，我们的 AR ( 1 ) 或 ARIMA ( 1,0,0) 模型显得是恰当的。用 MA 或更高阶的 
AR 项的更复杂的模型并不会对拟合有什么改进。 

用一个类似的 AR (1) 模型只拟合1973 1997年期间的然而，在这一 

期间，冬季北大西洋振荡 （ MVAC 0 的信息显著地改进了预测。对于这个模型，我们将 
WNAO 作为自变量，但是保留一个 AR ( 1 ) 项来解释误差的自相关。 

arima fylltemp wNAO if ti (1973 ^ 1997) 9 ar (1) nolog 


Portmanteau (Q) statistic 
Prob > chi2(15) 


ARIMA regression 


Sample : 


1973 to 1997 


Number of obs 
Wald chi2(2) 
Prob > chi2 


25 


12*73 

0.0017 


Log likelihood = 


-10.3481 
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id 


predict fyllres f 

■ 

corrgram fyllres f 1 gs(15) 


甲 


Prob>Q [Autocorrelation] [Partial Autocor] 


Q 


PAC 


AC 


LAG 









OPG 

Std, Err 


fylltemp 


Coef 


P> I z 


[95% Conf * Interval ； 


z 




fylltemp 

wNAO 

cons 


1736227 
1.703462 


0531688 
.1348599 


-3.27 

12.63 




0 _ 001 
0.000 


2778317 

1.439141 


0694138 
1.967782 








■ 




_ 




ARMA 


ar 


LI 


•2965222 


237438 


1.25 0.212 


1688478 


7618921 




4 


9 




/ s igma 


.36536 


0654008 


5,59 0.000 


2371767 


4935432 


■ 


9 


A 


576026628467 

699505231904 


444-461724766 

000202032210 


712697924 

844864297 

937807945 

899988786 


ooooooooo 


3 7 6 3 4 

7 6 8 13 

14 3 4 8 

o o o o 1 
o o o o o 


219152275517933 
632554585655104 
160894800800569 
3 2 12 4 8 - 860 
1 2 3 * " • 4 * f * 

6 7 9 


o 


o 8 


■ * o o 

9 9 11 


2 2 3 
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应用 STATA 做统计分析 


predict fyllhat 


(option xb assumed; predicted values) 


label variable fyllhat ’’predicted temperature 
predict fyllres2, resid 

corrgram fyllres2 f lags(9) 


IV 


一 1 


1 


0 




LAG 


AC 


PAC 


Q 


Prob>Q [Autocorrelation] [Partial Autocor] 


0.1485 

-0.1028 

0.0495 

0.0887 

-0*1690 

-0,0234 

0.2658 


0.1529 
-0,1320 
0.1182 
0■0546 
-0*2334 

0.0722 

0.3062 
-0.0726 -0,2236 

-0.1623 -0,0999 


1.1929 0*2747 

1.7762 0.4114 

1.9143 0,5904 

2.3672 0.6686 

4.0447 0.5430 

4.0776 0.6662 

8,4168 0.2973 

8,7484 0.3640 

10 - 444 0 * 3157 


2 


4 


5 


6 


8 


9 


在这个模型中有显著的负系数。而 AR (1) 系数的统计性却并不统计显著。 
然而，如果我们排除这个 AR 项，我们的残差便不能通过 corrgram ( 相关图）对白噪声的 
检验。图 13.10 同时画出了预测值 fyllhat 和观测温度序列 fylltemp 0 这个模型在 

拟合，要的变暖至变冷段落和几个较小变动方面做得相当不错。为了让图中的 y 轴标 

签显示为同样的小数位（即用 0. 5 、1.0、1. 5 等代替 0. 5 、1、1.5 等），我们指定它们的格式 
为％ 2 .If 


o 


graph twoway line fy11 temp year if tin(1973 f 1997) 

|| line fyllhat year if tin(1973, 1997) 

II f ylabel(,5(.5) 

ytitle("Degrees C") xlabel(1975(5)1995, grid) 
legend (label (1 Vf observed temperature ”） 

label (2 11 model prediction 11 ) position (5) ring (0) 

图 13.10 


/ angle(horizontal) format(%2•If)) 

xtitle("") 


col (1)) 


2*5 




/\ 


2 , 0 ; 


o 


A 


1.5 


1 別/ 


—— observed temperature 
― model predfction 


05 


1975 


1980 


19 


1990 


1995 


有一种称为 Prais-Winsten 回归 （ Prais ) 的技术，它用于修正一阶自回归误差， 
也可以用这个例子来加以示范。 
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fy 11 temp wNAO if tin (1973,1997) , nolog 


prai 


iterated estimates 


Prais-Winsten AR(1) regression 




25 


Number of obs 

23) 


MS 


df 




SS 


Source 


23,14 
0 - 0001 
0,5016 
0-4799 

38093 


F ( 


Prob > F = 
R-squared = 
Adj R-squared = 
Root MSE = 


1 3.35819258 

23 .145105889 


Model I 3.35819253 
Residual I 3 • 33743545 


278984501 


24 


Total I 6,69562803 






[95% Conf. Interval] 


P> I t I 


Std. Err 


t 


Coef 


fy11temp | 


0958468 
1 _ 942096 


2512733 
1 . 464776 


-4-62 

14.77 


0.000 

0 _ 000 


. 037567 

1153695 


17356 
1.703436 


wNAO 
cons I 








> 


* 


» 


_ 


2951576 


rho 




1.344998 


Durbin-Watson statistic (original) 

Durbin-Watson statistic (transformed) 1 .789412 


更加专门化。它的标准误以回归为基础，并假 


prais 是一种较老的方法，比 

定 p 是已知的、而不是估计的。因为这个假定并不真实，由 Praia 给出的标准误、统计 

检验和置信区间都不够保险，特别是在小样本中 D Praia 提供了 Durbin-Wat son 统计 
量（ d = 1.789 ) o 在这个例子中， Durbin-Wat son 检验表明，在拟合这个模型以后没有 

留下显著的一阶自相关。 


anma 
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编程入 /7 


在第 2 章和第 3 章曾经提到过，我们能够通过在文本 ( ASCII ) 文件中写人任意序列的 
Stata 命令来仓! | 建一个简单的程序。 Stata 的 Do 文件编辑器（点击 Window-Do-file 

Editor 或点击图标 _) 提供了便利的方式来做这个工作。将 do 文件存盘以后，我们进 

人 Stata 并键人命令 do filename 以告诉 Stata 来读文件 filerja / ne . do , 并执行其中 

所包含的所有命令。使用 Stata 的内置编程语言来编制更成熟和复杂的程序也是可能的。 
前面各章用过的许多命令实际上都涉及在 Stata 中编写的程序。这些程序中有些源于 

Stata 公司，有些则是由 Stata 用户自己编写的，因为他们想完成的特定任务超过了 
Stata 的内置性能。 

Stata 程序可以访问所有现存的 Stata 性能，可以访问其他程序、而被访问的程序 
中又可以依次再访问其他程序，还可以使用模型拟合工具包括矩阵代数和最大似然估 
计。不管我们的目的是大到一种新的统计技术还是小到一项专门的工作，比如，管理某 
特定数据，我们编写 Stata 程序的能力都能大大扩展我们能实际完成的工作范围。 
关于 Stata 编程有丰富的文献 （ 如 《 Stata 编程参考手册 》（ stata 

Reference Manual) 、《Mata 参考手册》 （Mata Reference Manual ) 、《用 Stata 做 

最大似然估计 》 （Maximum Likelihood Estimation with Stata)) 。 这一迷人的 

题目也包括定期网络教程（见 www.stata . com ) 的内容，同时也在《用户指南》中占据了 
一个部分。本章仅介绍一些基本的工具，并提供一些应用的示范 例子。 


- 上 


Progranuni ng 


I 本的杈念与工具 


我们从一些基本的概念与工具着手，同时伴以前面各 章所描 述过的 stata 的功能 
来作介绍。 

do 文件 


do 文件是 ASCII ( 文本）文件，可以用 Stata 的 do 文件编辑器、文字处理器或其 

他任何文本编辑器来创建。它们的特别之处是保存文件的扩展名为‘ 

能够包含序列的合法 Stata 命令。在 Stata 中，键入以下命令将使 

ename • do 并且执行其中包含的 命令： 


do\ 这个文件 

读取文件 


Stata 


do filename 


中的每一条命令，包括最后一条，都必须结束于一个硬回车，除非我 


filename .do 
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们专门通过命令 ttdelimit 将默认分隔符 （ delimiter ) 重新设置为其他字符。比如 


#delimit ； 


将设置英文分号 “ T 作为行尾分隔符，因而 Stata 会直到遇到一个分号才认为一行结 
束。设置分号为分隔符允许一个命令的长度扩展成多个物理行。随后，我们可以再设 

“回车 ”（ 


return) 为通常的行尾分隔符，使用命令 


carriage 
#delimit cr 


ado 文件 

ado (代表 automatic do) 文件也是 ASCII 文件，包含序列 Stata 命令，很像 do 

文件。它们的区别是，在运行一个 ado 文件时，我们用不着键入命令 do filename 。 比 

如，我们键入命令： 

• clear 

与遇到任何其他命令一样， Stata 读到这个命令时先检查是否存在这样命名的内在命 
令。如果在基础 Stata 可执行命令中并不存在 clear 这样一个命令（实际上它并不存 
在），那么 Stata 下一步就会在其通常的 “ado” 各目录中去搜寻一个名为 clear .ado 

的文件。要是 Stata 找到了这样一个文件（它应该会找到），就会执行这个文件中的所 
有命令。 ado 文件的扩展名为 “. ado ”。 用户所写的程序通常存放在名为 “ C : \ ado \ 
personal ” 的目录中，然而大量 Stata 官方的 ado 文件则是安装在 “ C : \stata \ ado ” 

目录中。键人 sysdir 就可以看到 Stata 当前所用目录的清单。键入 help sysdir 
或 help adopath 以咨询有关改变它们的建议。 

命令 which 可揭示某一个命令是否真的是内在的、固定编码的 Stata 命令，或者 
是定义为 ado 文件了。如果它是一 ado 文件，那么它在哪里存放。比如， logit 是一个 

内置命令 18 ，但是 logistic 命令却是一个 ado 文件，名为 logistic . ado ： 


• which logit 

built-in command : logit 


,which logistic 

C : \STATA\ado\base\1\logistic * ado 
*! version 3*1,9 0loot2002 


这种区别对于大多数用户而言没有多大差别，因为执行 logit 和 logistic 命令都同 
样容易，调用它们时用的是类似的命令语法。 


程序 


do 文件和 ado 文件都可以视为程序的类型，但是 Stata 所使用的“程序” 

_ 

( program ) —词则是狭义的，它是指存放于内存并通过键入特定程序名称便可运行的一 

套命令。 do 文件、 ado 文件或交互式键人的命令都定义了这样的程序。这种定义开始 
于声明一个程序名称。比如，要创建一个名为 count 5 的程序，我们要先写 


program counts 


然后应该是实际定义这一程序的那些行。最后，我们要给出 end 命令，并随之以硬回车 


end 


【译注： logit 现在已经是 ado 程序。】 
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应用 STATA 做统汁分析 


一旦 Stata 读到这些按程序定义的命令，它将会在内存中保留这个程序的定义，而 

且每当我们将这个程序名作为命令键入时都会运 行它： 


counts 


程序实际上使得 Stata 中有了新的命令可用，因而大多数用户用不着知道某一个命令 
到底是 Stata 本身的，还是一个 ado 文件定义的程序。 

当我们开始写一个新程序时，经常建立的是不完全的或是不成功的初步版本。这时 
命令 program drop 提供了基本帮助，让我们从内存中清除程序，以便我们再定义一个 
新的版本。例如，要从内存中清除程序就键人 


program drop counts 


要是想从内存清除所有的程序（但是不包括数据），就键人 


program drop all 


局部宏 


宏 ( macro ) 就是能代表字符串、程序定义结果、以及用户定义值的名称（长度不超过 
3 1 个字符）。而局部宏 （local macro ) 只有在程序之内有所定义时才存在，并且不能 
从其他程序中进行调用。要建立一个名为 iterate 的局部宏来代表数字0，就键人 


local iterate = 0 


要想查阅一个局部宏的内容（本例即数字0 ) ，将这个宏的名称置于左单引号和右单 
引号之内。 例如： 


display ^iterate’ 


0 


于是，要将 iterate 的值加1，我们要写 


f iterate ' +1 


local iterate 


全局宏 


全局宏 （global macro ) 与局部宏类似，但是一旦被定义，它们就会留在内存、而且 

可以被其他程序使用 o 要查阅一个全局宏的内容，我们要在宏的名称之前加上美元符号 

（而不是像局部宏那样括以左、右单引 号）： 


global distance = 
display $distance 


73 


2 


146 


版本 


Stata 的功能和特色已经经历了多年的变化。作为结果，为较早版本 （ 

的 Stata 所写的程序也许并不能在当前版本中直接运行。命令 

个问题的，以便让原来的程序还能使用。一旦我们告诉 Stata 这个程序是为哪一版写 
的， Stata 就会作必要的调整使原来的程序能够在新版 stata 中运行。比如，如果我们 

在程序的开始写了以下声明， Stata 将按 Stata 6 的方式来翻译这个程序的所有 命令： 


version 


就是针对这 


version 


version 6 
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注释 


不会将任何以星号开始的一行作为命令来运行。所以，这样的行可用于在程 

序中加人注释 （ comments ) ，或者在一段 Stata 工作期间加入一种交互提示。比如，下 

一 行注释在星号之后说明“这一整行都是注释”： 

★ This entire line is a comment . 

另外，我们也可以在可执行的命令行中包括一个注释。最简单的方式就是在两个斜线号 

“ //”之后加上注释（两个斜线之前至少要有一个空格 （ space ))。 比如： 

//this part is the comment 

加三个斜线（之前也至少要有一个空格）则表明其后直至行尾的内容是一个注释,但是其 
随后的一条物理行的内容是前面命令的继续,应该被运行。 比如： 

summarize 
occupation age 

这个命令的执行结果将会与以下命令的结果 相同： 

summarize income education occupation age 

不管有没有注释，三个斜线还为程序中的很长命令提供了一种便利方式。比如，下面的 
两行将会被作为一条 table 命令，尽管它们之间还有硬回车分隔。 

table gender kids school if contam = 二 1， contents (mean lived /// 

lived ) 

然而，如果我们的程序中有很多特长的命令，那么 #delimit ;命令可能在写和读的时候 
更为方便（前面有所描述，另可参见 help delimit )。 

将注释加在一个命令行的中间也是可能的，我们只需要将注释内容用 “/★ ”和 “★/” 

括起来即可。 比如： 

summarize income A this is the comment * / education occupation 

如果一行以 “/* ”结尾，而下一行以 “*/” 开始，那么 Stata 将会略过这个行中断，将两行 
作为一条命令。这也是在程序中有时能见到的处理特长命令的一个窍门。 


Stata 


income education 


summarize 


///this part is the coinment 


income education 


median lived count 


循环 


有好几种方式可以建立程序的循环 （ loop )。 一个简单方法是使用 forvalues 命 
令。比如，以下程序做计数从1到5的循环 显示： 


* Program that counts from one to five 
program counts 

version 8 .0 

forvalues i 

display 


1/5 






end 


通过键入这些命令，我们定义了程序 counts 。 此外，我们也可以用 do 文件编辑器 
将同样的序列命令存成名为 count 5 . do 的 ASCII 文件 。 然后键人以下命令让 Stata 

来读这个 文件： 


do counts 


3J8 i 


应用 ST AT A 做统汁分析 


不论哪一种方式，通过定义程序 counts 我们使其成为一个新的可用命令 


counts 


2 


3 


5 


其中的命令 


= 1/5 | 

赋值局部宏 i 从1到5依次取联贯整数值。另一个命令 

display 'i ' 

要求显 7 K 这一宏的内容。其中，宏名称 i 可以任意指定。那么另 一 个稍有不同的指令便 
能使我们做从0到100并按步长5来计数 （ 即依次赋值为 

forvalues j 二 0(5)100 | 

每一步的赋值不需要非得是整数。要想从 4 到 5 按增量0 .01 来计数 （ 比如，4 .00, 
4. 01，4.02,…，5 .00), 可以将命令写为： ’ ’ 

forvalues k = 4 ( ,01)5 | 

在开、关大括号 I 1之间任何有效的 Stata 命令都将被反复执行，对应着每一个赋值。注 
意:在 这行命令中的开括号后什么都没有，但是关括号需要自己单成一行。 

命令 foreach 采用的是不同的方法来作循环。不是靠指定一套联贯数值，而是根 

据我们所给的一个分项清单对应每一项便重复一次。这些分项可以是变量、文件、字符 
串或者数值。键人 help foreach 可参见此命令的语法。 

forvalues 和 foreach 建立的循环都是按事先指定的次数来重复。要是我们想 
让循环一直继续到某些其他条件被满足才停止，那么 

while 命令便有用了。按以下一 

般形式所写的 一 '段程 序将反复执彳了大括号内的命令，只要表达式 （ expression) 被评价 
为“真 ，，： 


forvalues 


1 


0,5 ， 10,… ， 100) : 


while expression | 

command A 
command B 


command Z 


正如前面的例子一样，关括号“丨”并不是处于最后一个命令行的末尾，而是应该自己单独 
占一行。 


当寧毕芩被评价为“假”时，这一循环便结束了，而且 stata 将继续执行命令 z 

類 ，这触 是—个_ WMle 跡从屏幕显示 


command 


Program that counts from one to six 
program count6 
version 8 .0 


★ 


while "iterate < = 6 | 
display 


iterate 
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iterate ' +1 


local iterate 




end 


第二个使用 while 循环的例子出现在 gossip . ado 程序中，我们将在本章的后面加以 

r 

描述。《编程参考手册》中还包括了关于编程循环的更多内容。 

如果… •- 否则 

if 与 else ( 如果与否卿）命令告诉程序，如果一个表达式为真时就做一件事，而在 
表达式为假时则做另外的事。它们的语法设置 如下： 


if expression { 

command A 
command B 


else { 


command Z 


比如，下面的一段程序检査局部宏 span 是否为奇数，并且将结果通知用户。 


1)/2 { 

span is NOT an odd number" 


if int ( 、 span 1 /2> != ( "span 1 

display 




ff 


else { 


span IS an odd number" 


display 


If 


变元 


程序定义新的命令。在某些情况下（如前面的例子 count 5 ) ，我们想要我们的命令 
每次被调用时都能做完全相同的事。然而，我们也经常需要一个命令能由变元 
( argument ) 加以修改，变元可以是变量名或者是某种选项。我们有两种方法告诉 
Stata 如何读取和理解包含变元的命令行。最简单的就是 args 命令。 

下面的 do 文件 （listresl . do ) 定义了一个程序来做两个变量的回归，然后列出残 

差绝对值最大的观测案例。 


* Perform simple regression and list observations with # 

* largest absolute residuals 

* 1istres1 Yvariable Xvariable # IDvariable 
program listresl , sortpreserve 

version 8,0 

args Yvar Xvar number id 
quietly regress 'Yvar 1 'Xvar 1 
capture drop Yhat 
capture drop Resid 
capture drop Absres 
quietly predict Yhat 
quietly predict Reside resid 
quietly gen Absres 

gsort -Absres 
drop Absres 

list "id 1 'Yvar 1 Yhat Resid in 1 / "number 1 




abs(Resid) 




end 
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其中 


args Yvar Xvar number id ”这一行告诉 Stata ， 命令 listresl 应该后 


接 4 个变兀。这些变兀可以是数字、变量名称或者其他由空隔分开的字符串。于是，第 
个变元就用了名为 Yvar 的局部宏的内容，第二个变元用了名为 Xvar 的局部宏，如此 

等等。然后，程序在其他命令中应用这些宏的内容，比如，回归 


_ 


quietly regress、Yvar 


Xvar 


这个程序计算残差绝对值 ( Absres ) ，然后用 gsort 命令（后接一个负号置于变量 
名之前）按从大到小来排序,缺失值排在 最后： 


gsort - Absres 


命令行中的选项 sortpreserve 使得这个程序“排序稳定化，’ （ 

次所有计算一结束，程序就将数据恢复为原来的顺序。 

数据 nations . dta ， 在前面第8章曾经看过，包含109个国家的数据，变量有预期 

寿命 （ life ) 、每天人均卡路里 （ food ) 以及国家名称 （ country ) 

文件，并用它来示范我们的新程序。用 do 命令来运行 do 文件 
义程序 


sort-stable ) :即每 


我们能够打开这个 

do , 从而定 


o 


listresl 


m 


listresl 


] 


listresl 


然后，我们用新定义的 listresl 命令，并后接其4个变元 


一 第一个变元确定了 

变量，第二个变兀确定了 x 变量，第三个变元指定了要列出的观测数，第四变元则提供案 

例识别码。在这个例子中，我们的命令要求的是5条有最大残差绝对值的案例清单。 


y 


o 


listresl life food 5 


country 


country 


life 


Yha t 


Resid I 


1 


Libya 

Bhutan 

I Panama 

Malawi 
I Ecuador 


60 


76*6901 

60.49577 

58.13118 
58.58232 
52.45305 


- 16,69011 

- 16.49577 

13,86882 
- 13.58232 
13 • 54695 


2 


44 


3 


72 


45 


66 


争 


利比亚 （ Libya ) 、不丹 （ Bhutan ) 和马拉维 （ Malawi ) 的实际预期寿命低于按食品供应 
所做的预测值。相反，巴拿马 （ Panama ) 和厄瓜多尔 （ Ecuador ) 的预期寿命却高于预 


测值 


语法 


命令 syntax ( 语法）提供了更复杂然而也更有用的方式来读一个命令行。下面的 
do 文件名为 listres 2 do , 它与我们前一个例子类似，但是它没有用 args ， 而是用了 


syntax 


Perform simple 
observations 
1istres2 


multiple regression and list 
with # largest absolute residuals. 

yvar xvarlist [if] [in] ， number(#) [id (varname)] 

program listres2 f sortpreserve 
version 8.0 


or 


女 


syntax varlist(min=l) [if 】 【 in], 

marksample touse 

quietly regress 、 varlist 1 
capture drop Yhat 


Number(integer) 【 Id 《 string)] 


if ' touse• 
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capture drop Res id 
capture drop Absres 
quietly predict 
quietly predict 
quietly gen 
gsor t 

drop Absres 

list 、 id f 、 1 T Yhat Resid in 1/'number * 


Yhat if 、 touse ’ 


Resid if 'touse 1 , resid 


abs(Resid) 


Absres 


-Absres 


end 


的目的与以前的 listresl 的目的 相同： 它要完成回归，然后列出那些 
有最大残差绝对值的案例来 o 但是，这个新版本包含着应用 syntax 命令而达到的几个 

方面的改进。它不再限于像 listresl 那样的两个变量的回归。 listres 2 可以做任 

何自变量数目的回归，也包括不设自变量的回归 （ 在这种情况下，预测值等于 y 的平均 

数，并且残差就是距平均数的离差）。 listres 2 还可以允许 if 和 in 这类的选项。在 

中用来识别观测案例的备选变量，而在 listresl 中这种识别变量是必须 
的。 比如， 我们可以将预期寿命 （h fe ) 对食品 （ food ) 和能源 （an ergy ) 做回归 ，然而 
限制我们的分析只对那些人均 GNP 在 5 00美元以上的国家来做。 


listres 2 


listres 2 


do listres2.do 

■ 

listres2 life food energy if gnpcap 


(6) i (country) 


> 500 


Resid 


Yhat 


life 


country 


- 15.34964 
- 14•85839 
- 13,62516 
- 12.9146 
11.35978 


61.34964 
59.85839 
73 . 62516 
67 . 9146 
64,64022 


46 


YemenPDR 

YemenAR 

Libya 

S_Africa 

HongKong 


1 


45 


2 


60 


3 


55 


7 6 


5 


10.22212 


72 61 . 77788 


6 , 


Panama 


本例中含 syntax 的行示范了这个命令的一些总的 特征： 

varlist(min=l) [if] [in] f Number(integer) [Id(string>] 

对 listres 2 的命令的变量清单中要求至少包括一个变量名在内 （ varlist ( 

1))。方括号标志了备选的变元，在本例中即为 if 和 in 选择条件以及 id () 选项。对 
选项中的第一个字母做大写则代表着可以采用最小缩小形式。由于本例含 syntax 的 

行指定 Number ( integer ) Id ( string ) ，对应的实际命令可以 写为： 

.Iistres2 life food, number(6) Ld(country) 

或者也可 写为： 

• listres2 life food, n(6) i (country) 

要求局部宏 number 的内容必须是一个整数，而 id 则是一个字符串（比如，一个变量名 

country ) 。 

这个例子还示范了 marks ample 命令，它给子样本（满足了 if 和 in 选择条件的) 
做标志，以便用于随后的分析。 

《编程手册》中对 syntax 命令本身的语法作了简要说明。在实验和学习其他程序 
时也有助于获得关于这个命令的把握。 


syntax 


mm 
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程專承范： 移动看 相兵 


上一节提供了基本的思路和示范性短程序。在这一节中，我们将这些思路应用于稍 
微长一些的分析过程新程序。这个过程根据 Topliss (2001) 的海洋大气数据来获取 

时间序列的移动自相关。下面的 do 文件 gossip . do 定义了一个称为 

令。那些以星号开始的行或由双斜线注明的部分则注释了这一程序正在做什么。有缩 
进的行对程序运行并没有影响，但是可以方便程序员的阅读。 


的新命 


gossip 


capture program drop gossip 
program gossip 
version 8,0 


// FOR WRITING & DEBUGGING; DELETE LATER 


Syntax requires user to specify two variables (Yvar and TIMEvar) 
the span of the moving window 


and 

ask to generate 


Optionally, the 


user can 


* 


variable holding autocorrelations, to draw a graph, or both. 

)^ SPan ( integer) [GENerate(string) GRaph] 
1 - 1)/2 { 

Span must be an odd integer 


a new 


syntax varlist(min=l max=2 numeric 


if int ( 'span 1 /2) != 「 span 

display 


If 


as error 


else { 

* The first variable in 


' varlist f becomes Yvar, the second TIMEvar, 


token!ze 、 var1ist 

local Yvar '1 
local TIMEva 
tempvar NEWVAR 

quietly gen 'NEWVAR 
local 


、 2 


r 




miss 


spanlo and spanhi are local 
low and high ends of a particular window 
number at the center of this window. 
local spanlo = 0 

local spanhi 


holding the observation number at the 

spanmid holds the observation 


macros 


4 


span T 

local spanmid = int 「 span ， /2) 
while 'spanlo 


N - 、 span * { 


< = 


local spanhi 
local spanlo 
local spanmid 
The next lines check whethe 


、 spanlo 


+ 


span 
‘ spanlo f 十 1 




、 spanmid 




missing values exist within the window 

If they do exist, then no autocorrelation is calculated and 
move on to the next window 


r 


★ 


we 


Users are informed that this occurred 
、 spanlo 1 / v spanhi 1 




quietly 

if r(N) ! 

local 


"Yvar 1 
、 span 1 ( 

miss = 1 


summ 


in 


^^2 


The value of NEWVAR 
row 

t{AC) saved by corrgram 

else { 


in observation "spanmid r is 
first column (1,1) element of the 


set equal to the first 
row vector of autocorrelations 


quietly corrgram 'Yvar 1 in 、 spanlospanhi 
quietly replace "NEWVAR 


lag(l) 

el(r(AC ),1,1) in 、 spanmid 


、 graph 1 " i= n " { 

The following graph command illustrates the 
Stata to skip over line breaks, 
they were one + 

graph twoway spike 'NEWVAR 

ytitle("First-order autocorrelations 


if 


* 


use of comments to cause 

so it reads the next two lines as if 


、TIMEvar 


V 


yline(O) /// 

of v Yvar ' (span ' span ' ) f, ) 


if 'miss 1 : 

display 


11 


Caution : 


missing values exist 


as error 


tt 


if 


■ generate r " !: 
rename "NEWVAR 
label variable 


generate f 
v generate' /// 
First-order autocorrelations of 


II 


^ Yvar 


(span 'span 1 ) 1 


end 


float 

float 

float 

float 


Year 

Winter NAO 

Winter NAO smoothed 
Mean air temperature (C) 

Mean air temperature smoothed 


year 

wNAO 

WNA04 

temp 

temp4 


storage displ 
variable name type forma 









Sorted by 


year 


变量 temp 记录了 1841—1999 年期间冰岛西部斯蒂基斯霍尔米的年平均气温。 
temp 4 为 temp 的修匀值(参见第13章 h 图 14.1 画出了这两个时间序列。为了区别 
原始变量 temp 和修匀变量 te : np 4, 我们对前者用很细的连线，选项为 lwidth 
(vthin ) , 对后者则用粗连线，选项为 clwidth ( thick ) 。 键人 help 
1 inewidthstyle 咨询其他线宽选项。 


graph twoway line temp year, clpattern(solid) clwidth(vthin) 

line tsmp4 year, clpattern(solid) clwidth(thick) 

,ytitle("Temperature, degrees C"> legend(of£) 


图 14.1 


1850 


Year 


为了在 9 年的移动窗口内计算并画出 temp 的序列自相关，我们键人以下命令。它 

们得到了图 14.2 


O 
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正如注释的描述， gossip 要求时间序列 （tsset ) 数据。根据现有时间序列变 

计算岀第二个时间序列变量，它是根据观测的移动窗口 （moving window ) 

(比如，按9年跨距移动)所计算的时滞1的自相关系数。数据 
洋气候的时间序列，可以用来进行 示范： 


量， 


gossip 


dta 包含了北大西 


nao 




Contains data from C : \data\nao - dta 
obs 


North Atlantic Oscillation & 

temperature at 
Stykkisholmur, Iceland 
1 Aug 2005 10:50 


159 


mean air 


5 


var s 


3 498 (99*9% of memory free) 


size 


value 

label 


y 


variable label 


g 9 g 
o o o 


g 

o 


y 


% % % % % 










2.73 
4.34 
2.97 
3.41 
3*62 


2324837 




* 


4 .28 

4 ,45 
2.32 

3,27 

3*23 


- - 0883512 
0194607 
0175247 

-. 03303 
0181154 




» 


蠡 


* 


-1 


1 — 1 

Prob>Q [Autocorrelation] [ Partial Autocor] 


0 


LAG 


AC 


PAC 


Q 


-0.2325 


— 0.2398 


66885 0.4135 

在 1846 年， autotemp 的值 （- 0.088 351 2 ) 等于从 1842—1850 年的 9 年跨距的 


一 1 


I 




1/ , lag(l) 


corrgram 


autote 卿值在第一个 4 年（1 84 1 1844年）时缺失。1845年的 autotemp {6 

(-0.232 483 7) 等于从 1841—1849 年的9年跨距的 te 卿的时滞1的自相关。这个 

系数值与我们将键人的以下命令的结果 相同： 


float %9, 0g 


autotemp 


First-order autocorrelations of 
temp (span 9) 


list year 


p autotemp i 1/10 


year temp 


autotemp 
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gossip.do 

go sip t p year f span(9) generate (autotBmp) graph. 


14.2 




§ 


Q. 


E 


S 






-So 


3 


ca 


& 




u. 


1850 


1900 


1950 


2000 


Year 


除了画出图 14.2 以外， gossip 还创建了一个名为 autotemp 的新变量 

describe autotemp 


storage display 
variable name type format 


value 

label 


variable label 



i 




































12345 - 67890 
4 4 4 4 4 - 4 4 4 4 5 
88888 - 88888 
11111 - 11111 


12 3 4 5 


6 7 8 9 0 


1 
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的时滞1的自相关。 autote 卿值在数据的最后 4 年 （ I " 6 — I " 9 )与最前面的 

4年一样又为缺失。 

1920年代北极显著在变暖，这可以从图 14.1 中的温度曲线看出，在图 I 4 . 2 中则表 
现为一段时期中一致的正自相关。而 I 960 年代一段很短暂的正的自相关则对应着气候 
在变冷。 Topliss (2001 ) 曾建议，这种自相关可以作为海洋大气系统变化反馈的指 

示器。 


temp 


do 是通过几次扩充写出来的 ，一 开始先着手输入部分，诸如命令 


do 文件 

声明和跨距宏，通过运行这个 do 文件来检查它是否工作，然后再添加其他的部分。并不 
是所有的试验运行都能得到满意结果。键人以下命令将导致 Stata 将逐行地显示正在 
运行的程序，所以我们能够确切地看到错误是在哪里发生的： 


gossip 


m 


set trace on 


以后，我们还能够用以下命令来关闭这一功能 


set trace off 


do 中的第一行命令 ， capture program drop gossip ， 是要求在再次 


gossip 




定义前先将这个程序从内存中清除。这一点在编写和调试程序的阶段是很有帮助的，因 
为我们以前版本的程序可能尚未完成，或者存在错误。然而，这样的命令行应该在程序 
已经成熟后予以删除。下一节将描述更多的步骤来使 gossip 成为一个正规的 Stata 


命令。 


ado 文件 


一旦我们相信我们的 do 文件定义的是我们还想再用的程序，我们便可以创建一个 
ado 文件使其成为像其他 Stata 命令一样的命令。对于前一个例子 gossip.do 而言， 

这一变化涉及两个 步骤： 

① 用 do 文件编辑器整个删去程序的第一行，它包含在编写和调试阶段用的 

“DELETE LATER ”。 我们还可以删去那些注释行。这么做也就删了一些有用的信息，但 

是将使程序更加紧凑并易于阅读。 

② 在一个新目录下保存修改后的文件，并改用 . ado 扩展名（比如 ， gossip . ado ) 
推荐位置为 C : \ ado \ personal ,如果这个目录和子目录尚不存在，那么你需要自己来 
创建它们。置于其他位置也不是不可以，但是请先阅读一下《用户手册》中 “ Stata 从哪 
里寻找 ado 文件?”这一节。 

一旦这些都完成了，我们就能将 gossip 作为 Stata 中正规命令来使用了。以下 
歹! J 出 gossip . ado 文件内容的 清单： 


o 


^; version z - u 

*! L. Hamilton r Statistics with Stata {2 004) 
program gossip 

version 8,0 


syntax varlist(min-1 max^2 numeric) # Span ( integer) [GENerate(string) GRaph ； 
if int 「 span 1 /2) ! 

display 


D/2 { 


Span must be an odd integer 


as error 


else { 


tokenize 'varlist 1 

local Yvar '1 
local TIMEvar '2 


f 
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tempvar NEWVAR 

quietly gen 'NEWVAR 

local miss = 
local spanlo 

local spanhi 

local spanmid 

while ' spanlo f 

local spanhi 
local spanlo 
local spanmid = % spanmid 

quietly 

if r (N) != span' { 

local 


0 


0 


span r 

int ( 、 span'/2) 

N - "span 1 { 




< = 


、 spanlo 1 


span 
'spanlo 1 + 1 


' Yvar 


T 


in 'spanlo 1 / 'spanhi 


summ 


miss 


else { 


quietly corrgram Yvar, in 、 spanlo ,/ 、 spanhi 1 , lag (1) 
quietly replace 、 NEWVAR 


el(r(AC),l f l) in 、 spanmid 


if 


1 v graph' M != "" { 

graph twoway spike 'NEWVAR 

ytitle("First-order autocorrelations 


'TIMEvar 1 , yline(0) /// 

of 'Yvar * (span ' spanj) n ) 


if ^ miss 1 == 1 { 

display as error M Caution : 


missing values exist 


if 


generate * ! - 

rename 'NEWVAR 


generate 1 
label variable x generate 1 /// 

First-order autocorrelations of 


II 


、 Yvar 


I 


(span 、 span f ) 


If 


end 


这个程序还能进一步加工以使其更灵活、更雅致、更加用户友好化。注意在程序中 

所加人的前两行都是由 “★ !”引导的关于来源和版本的注释行。这里注释所说的版本是 
指 gossip . ado 的第 2 .0 版，而不是指 Stata 版本 （ 

现在本书以前的版本中）。适用这一程序的 Stata 版本在几行之后用 

定为第 8 .0 版。尽管用 “*!” 来引导注释并不影响程序的运行，但它们在执行 which 命 
令时是能看见的。 


gossip - ado 的更早版本曾经出 

version 


命令指 


which gossip 

: \ado\personal \ gossip.ado 

! version 2 寿 Q 

! L- Hamilton, Statistics with Stata 


c 


(2004) 

旦 gossip .ado 被存于 C: \ado\personal 目录中，命令 gossip 就能被随时 

使用了。如果我们跟着本章做了所有的步骤，那么以前就会定义过 
那么在运行新的 ado 文件版本之前，我们应该键人命令来清除内存中的旧的定义 




的初步版， 


gossip 


program drop go 




现在，我们就准备来运行最终的 ado 文件版本了。比如，要是我们想看看数据 
dta 中变量 WAO 按跨距15的自相关，那么我们只需要简单地先打开数据 

后键人： 


nao . 

dta 然 


nao 




gossxp wNAO year , span (15) graph 
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埽助文件 


帮助文件 （help file ) 是使用 Stata 时不可或缺的一个方面。对一个像 

ado 这样的用户撰写程序，帮助文件就变得更为重要，因为在印刷手册中根本 


gossip 

没有相应文件。我们能够为 gossip.ado 写一个帮助文件，就是用 Stata 的 do 文件 
编辑器创建一个名为 gossip .hip 的文本文件。这一帮助文件应该存放于与 gossip . 

ado 相同的 ado 文件的目录里 （ 比如， C : \ ado \ personal ) 0 

当我们键入 help fi 1 ename 时，存在 Stata 公认的 ado 文件目录里的以 
filename . hip 形式命名的任何文本文件的内容都将被 Stata 显示在屏幕上。比如, 

我们可以在编辑器里写入下面的内容，然后将其在目录 C : \ado \personal 中存为 
gossipl . hlp 0 那么,任何时候键人 help gossipl ，都会导致 Stata 显示这个文本。 




L , Hamilton 


help for gossip 


Moving first-order autocorrelations 


gossip yvar timevar, span(#) [ generate(newvar) graph ] 


Description 


calculates first-order autocorrelations of time series 
yvar r within a moving window of span #. For example f if 
specify span(7) gen(new) f then the first 
through 3rd values of 

equals the lag-1 autocorrelation of yvar across observations 1 
through 7 
of yvar 

3 values of new are missing 
and applications of this statistic to atmosphere-ocean data. 
Statistics with Stata (2004) discusses the gossip program itself 


we 


The 4th value of new 


missing 


new are 




The 5th value of new equals the lag-1 autocorrelation 

The last 


_ 


observations 2 through 8, and so forth 

See Topliss (2001) for 


across 


* 


rationale 


a 


* 




gossip requires tsset data 
variable to be used for graphing 


timevar is the time 


* 


Options 


span(#) 


specifies the width of the window for 
calculating autocorrelations 
# should be an odd integer * 


This option is required 


gen(newvar) creates a new variable holding the 

autocorrelation coefficients. 

requests a spike plot of lag-1 autocorrelations 
timevar * 


graph 


vs 


Examples 


gossip water month, span (13) graph 

gossip water month, span (9) gen (autowater) 

gossip water month, span(17) gen(autowater) graph 


References 


Hamilton, Lawrence C 
CA : Duxbury * 


2004 


Statistics with Stata 


Pacific Grove / 


« 


■ 


* 


Topliss, Brenda J 
ocean-atmosphere feedback 
North Atlantic Oscillation, Nov. 28 - Dec 1, 2000, Ourense, Spain 


2001 


Climate variability I 
In Abstracts for AGU Chapman Conference, The 


n 


A conceptual approach to 




■ 


较好的帮助文件包含链接、文本的格式、对话框以及其他特色，这些都可以用 Stata 
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的标注和控制语言 （Stata Markup and Control Language , SMCL ) 来设计。所有正 

式的 Stata 帮助文件，如同日志文件以及屏幕显示结果一样，都采用 SMCL 形式。以下 
是 gossip 的帮助文件的 SMCL 版本。这个文件应被存于目录 C : \ado \personal 中 
并命名为 gossipjjp ， 那么键人 help flrosjsijp ， 都会导致可读性更强的正式外观的 

显示。 

{smcl} 

{* laug2003}{• . • } 

{hline} 

help for {hirgossip}{right:(L, Hamilton)} 

{hline} 


{title:Moving first - order autocorrelations} 

(P 8 12){cmdrgossip} {it:yvar timevar} { cmd : ; } {cmdab : sp:an}{cmd : (} 

{it:#}{cmd : )} [ {cmdab : gen : erate}{cmd : (}{it:newvar}{cmd : )} 

{cmdab:gr:aph}] 


{title:Description} 


{p}{cmdrgossip} calculates first-order autocorrelations 

{ it : yvar}, within 


of time series 


moving window of span (it:#} 


For example, if 

specify {cmd:span{}7{cmd;)} {cmd:gen(}{it:new}{cmd:)}, then the first 
through 3rd values of {it:new} 

equals the lag-1 autocorrelation of {it : yvar} 

The 5th value of {it:new} equals the lag-1 

across 


a 


we 


The 4th value of {it:new} 

across observations 1 


are missing 


m 


through 1 • 
of {it:yvar} 

3 values of {it:new} 
and applications of this statistic to atmosphere-ocean data. 

{browse *'http : / /www. stata* com/bookstore/sws .html^ 1 : Statistics with Stata} 

(2004) discusses the {cmd:gossip} program itself*{p end} 


autocorrelation 
observations 2 through 8, and so forth. The last 


See Topliss (2001) for a rationale 


are 


missing 


{p}{cmd:gossip} requires {cmd:tsset} data 
variable to be used for graphing.{p end} 


{it : timevar} is the time 


* 


{title : Options} 


{p 0 4}{cmd:span(}{it:#}{cmd:)} specifies the width of 

calculating autocorrelations 

odd integer * 

(p 0 4}{cmd : gen(}{it:newvar}{cmd : )} creates 
autocorrelation coefficients. 


the window for 

This option is required; {it:#} should be 


毋 


an 


a new variable 


holding the 


fp 0 4}{cmd:graph} requests 
{it : timevar} 


spike plot of lag-1 autocorrelations 


a 


vs 




{title:Examples} 


{p 8 12}{inp 
{p 8 12}{inp 

{p 8 12}{inp 


gossip water month, span(13) graph}{p end} 

gossip water month, span(9) gen(autowater)}{p 一 end} 

gossip water month, span (17) gen (autowater) graph}{p end} 


_ 


{title:References} 


{p 0 4 }Hamilton, Lawrence C 
{browse fl http : //www* stata.com/bookstore/sws.html M : Statistics with stata} 

Pacific Grove, CA: Duxbury.{p end} 

{p 0 4 }Topliss f Brenda J 

approach to ocean-atmosphere feedback 

Conference, The North Atlantic Oscillation 
Spain, citation.{p end} 


2004 


» 


攀 


2001 


Climate variability I 


A conceptual 
In Abstracts for AGU Chapman 

一 Dec 1, 2000, Ourense 


VI 




Nov, 28 
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这个帮助文件开始于 I smell ，它告诉 Stata 按 SMCL 格式来处理这个文件。大括 

号丨 1 括住了 SMCL 代码，它们就属于形式丨 command ： text 丨或丨 command 

argument : text 1 0 下面的例子说明这些代码是如何被解 释的： 

画一条水平线。 


| hline | 

I hi : gossip | 

I title : Moving •. • | 

I right ： L . Hamilton } 将文本 “ L . Hamilton ” 右对齐 


高亮显示文本 “gossip” 

将文本“ Moving 


作为标题显示。 


_ « » 


将后面的文本作为一个段落，其中第一行缩进8列，随 
后各行缩进12列。 


Ip 8 121 


作为一个命令显示。用当前为命 


将文本 

令专门定义的颜色和字形、字号来显示“ gossip ” 


| cmd ： gossip | 


gossip 


将文本 “ yvar ” 显示为斜体字 形（ itlics ) 

将文本 
为最小缩写 

将后面的文本作为一个段落，直到见 jp _ end | 结束。 

| browse n http : // www.stata • com / bookstore/sws 上 tml" : Statistics … 1 

链接文本 “ Statistics with Stata ” 到互联网址 

(URL ) http ：// www . stata . com / bookstore / 

html p 点击文本“ Statistics with Stata ” 

即可将用户的浏览器链接到这一网址。 


| it : yvar | 

I cmdab : sp ； an| 


作为一个命令显示，其中字母“ sp ” 标注 


span 


19 


IpI 


SWS 


《编程手册》中提供了使用这些及其他 SMCL 命令的详细说明。 


矩眸代教 


矩阵代数 (matrix algebra ) 提供了统计建模的基础工具。 Stata 的矩阵命令和 


矩阵编程语言 ( Mata ) 太丰富多样,不可能在这里充分描述，有关题目需要参阅它自己的 
参考手册 （《 Mata 参考手册》），此外还可以参阅《编程参考手册》和《用户指南》中的很 
多篇幅。有关 Mata 语言以及 Stata 第9版的新变化的信息，请咨询以上资料来源。本 

节用一些例子来示范以前的矩阵命令，但它们现在仍能工作（因而在每个程序开始时要 
加人一个 


8.0 命令）。 

Stata 内置命令 regress 执行常规最小二乘法 （ 0 LS ) 回归，自然还有其他工作。 

但是为了练习，我们可以自己来写一个 0 LS 程序。后面的 olsl . do 定义了一个简单的 

回归程序，它除了计算和显示回归系数估计向量以外不做其他的事。以下是很熟悉的 
0 LS 公式以及这个程序的 文本： 


version 


b = ( x f x)^xy 


19 【译注 :显示 为加粗，最小缩写指只需要健人 flp 即可代表命令 span 。】 


site 


str 14 
byte 


decom 

capacity 

years 

start 

close 


byte 


Reactor site 

Decommissioning cost, millions 
Generating capacity, megawatts 
Years in operation 
Year operations started 
Year operations closed 


Sorted by 


start 
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* A very simple program, 

* coefficients using ordinary least squares (OLS) 
program olsl 

version 

* The syntax allows only for a variable list with 

* numeric variables 


fl 


olsl" estimates linear regression 


8.0 


one or more 




syntax varlist(min=l numeric) 
tempname 


★ 


assigns names to temporary matrices to be used in this 

When olsl has finished, these matrices will be dropped. 
tempname crossYX crossX crossY b 
matrix accum 


Vf 




* 


program 




forms 


-product matrix 

varlist, and the N observations with 


The K variables in 


a cross 


nonmissing values on all K variables, 

might call yX. 

product matrix crossYX equals the transpose of yX times yX. 
Written algebraically : 


comprise an N row, K column data matrix 
The 


we 


cross 


(yX) ，yX 

quietly matrix accum 'crossYX’ 
Matrix crossX extracts 


crossYX 


'varlist * 

2 through K, and columns 2 through K f 


rows 


from crossYX 


X f X 


crossX 

matrix 、 crossX 1 




"crossYX 1 [2 

Column vector crossY extracts 


,2 




2 through K, and column 1 from 


rows 


crossYX 


X'y 


crossY 
matrix 、 crossY ’ 




'crossYX f [2 … 
The column vector b contains OLS 


1] 


regression coefficients, obtained by 


the classic estimating equation 

inverse 


b 


matrix 'b 1 
Finally, 
matrix list "b 1 


syminv( 、 crossX 1 ) 
list the coefficient estimates, which 




* 


crossY 1 




we 


are the contents of b 


end 


在以上 olsl . d ◦程序中的每一条命令都有注释来说明。从没有注释行的程序版本 
ols 2 . do (后面）中可以更清楚地看到矩阵 命令： 


program ols2 

version 8.0 
syntax varlist(min 二 1 
tempname crossYX crossX crossY b 
quietly matrix accum N crossYX 1 - 

matrix 、 crossX 1 
matrix "crossY 1 
matrix 'b 1 
matrix list "b 1 


numeric 


varlist 1 


、 crossYX 1 [2 


,2 


• ■夸 


* « • 


crossYX 1 [2 


, 1 ] 

"crossY ’ 


syminv { 、 


* 


end 


在 oJsl * do 和 ols 2 . do 中都没有用 in 或 if 选择条件，都没有语法错误，也没有 

命令选项。它们也没有计算通常与回归配套的标准误、置信区间或其他辅助统计量。为 
了看看这些命令到底在做什么，我们将分析一个关于核电厂的小数据 （ 


dta ) 


reactor 


Contains data from 
obs : 


\data\reactor•dta 


c 


5 


Reactor decommissioning 

(from Brown et al. 1986) 
1 Aug 2005 10:50 


costs 


6 


vars 


130 (99. 9% of memory free) 


size 


storage display 
type format 


value 

label 


variable name 


variable label 


gg g g g 
s o o o o o 

18 8 9 8 8 
% % % % % % 





Number of obs 
F( 2, 

Prob > F 

R-squared 
Adj R-squared = 
Root MSE = 


df 


MS 


Source 


SS 


2 ) 


Model I 4666 - 16571 

Residual | 24.6342883 


2 2333,08286 

2 12.3171442 




Total 


4690-80 


1172.70 


regress decom capacity years 


关闭一座反应堆的成本随其发电量和运行年数而提高，正如用 regress 的回归结 


果所示 
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decom | 


Coef 


Std * Err 


[95% Conf. Interval] 


^ P> t t 


t 


capacity 

years 
cons I 


1758739 
3.899314 
-11,39963 


0247774 
2643087 
4.330311 


7,10 
14 _ 75 
-2 * 63 


0.019 

0.005 
0.119 


0692653 

2*762085 

-30.03146 


2824825 
5 * 036543 
7.23219 


_ 




_ 


* 




我们自制的程序 ols 2. do 也得到了同样的回归系数 

do ols2. 


ols2 decom capacity years 


000003 [3,1] 


decom 

1758739 
3.8993139 

-11.399633 


capacity 

years 

cons 


9 


尽管它的结果是正确的，这个最简单的 OLS 2 程序缺乏许多在我们在建模时所需的 

许多特色功能。下面的 ado 文件 ois 3 . ado 定义了一个名为 ols 3 的改进程序。这个 

_ 

程序允许用 i 或 if 选择条件，并且允许随意指定置信区间的水平。它计算岀回归系 
数，并且采用表格形式工整地显示回归系数及其标准误、 t 检验、置信区间。 


★ 1 


version 2*0 laug2003 
Matrix demonstration : 


* 1 


more complete OLS regression program 


program ols3, eclass 

version 


8,0 


syntax varlist(min=X numeric) [in] [if] [, Level(integer $S_level)] 

marksample touse 

tokenize 


、 varlist 


ir 


tempname crossYX crossX crossY b hat V 

I 

quietly matrix 
local nobs 
local df 
matrix "crossX 1 
matrix "crossY 
matrix 'b 1 = 
matrix 'hat 1 


'crossYX 1 


、 varlist 1 if ^ touse 


accum 


r (N) 

、 nobs 1 




(rowsof('crossYX 1 ) 
v crossYX 1 [2 
'crossYX 1 [2 

(syminv( h crossX 1 ) 


1) 








2 




f 


» _ * 


V 


,1】 


、 crossY 1 ) 


* 




女 


'crossY ， 


matrix ^ V ’ 
ereturn 


syminv「crossX 1 ) 


('crossYX ， [1,1] 

post N b 1 dof ( ' df 1 ) obs ( ' nobs 1 ) depname ( ^ 1 1 ) III 

esample ( v touse 1 ) 


★ 


、 hat 1 [1,1])/^df 1 




ereturn local depvar M " 1 
ereturn local cmd 11 o 1 s3 
if s level 1 < 10 | N level 1 > 99 { 

display as error ’’level ( ) must be between 10 and 99 inclusive 
exit 198 


VI 


ereturn display, level('level 1 ) 


end 


因为 ols 3 . ado 是个 ado 文件，我们只需要简单键人 ols 3 来作为一个命令 


2 3 7 5 6 
4 5 4 9 9 

*0980 

9 0 9 9 5 

峰 » **. 

10 0 0 3 


5 


8 
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ls3 decom capaci ty years 


decom 


Coef 


Std. Err 


t 


P> I t I 


[ 95 % Conf - Interval] 


1758739 
3•899314 
-11.39963 


capacity | 

years | 

cons I 


0247774 
2643087 

4.330311 


7.10 

14.75 
-2,63 


0.019 
0 _ 005 
0.119 


0692653 
2.762085 
-30.03146 


2824825 
5•036543 
7,23219 


* 




參 


m 


* 


ado 包含许多我们已经熟悉的元素，包括 syntax 和 marksample 命令，还 
有前面 olsl .do 和 ols 2 .do 中已经见过的种种 matrix 运算。注意右单引号 （ T ) 为 

“矩阵转置”运算符。我们将系数向量 ( syminv ( 

以下那样 写为： 


ols 3 


) 


crossY ') 的转置则像 


crossX 


氺 


(syminv ( 、 crossX 1 ) 


★ 


crossY T ) 

ols 3 程序被定义为 e 类 （ e - class ) ，表? k 其为统计模型估计 （ estimation ) 类的 


f 


命令 


program ols3, eclass 


类程序保存其结果时都带着标注 e () D 在前一 ols 3 命令运行后，已经有了以下 


e 


内容 


ereturn list 


scalars 


e (N) 

e (df r) 


5 


2 


macros 


e(cmd) 
e(depvar) 


fl 


ols 3 
decom" 


vv 


fl 


matrices 


e (b) 

e (V) 


1x3 


3 


3 


x 


functions 


e(sample) 


display e ( N ) 


5 


matrix list e ( b ) 


e(b)[1,3] 


capacity 
1758739 


years 

3.8993139 


_cons 

-11.399633 


yi 


* 


matrix list e ( V ) 


symmetric e(V) [3,3: 

capacity 
00061392 
00216732 
01492755 


years 


cons 


capacity 

years 

cons 


4 


0698591 

942626 18,751591 




4 


A 






* 


_ 


从 e 类程序得到的 e ( )结果将在下一个 e 类命令执行之前一直保存在内存中。与 
此相反， r 类程序比如 summarize 保存其结果时会用 r () 标注，并且只保存到下一个 


e 
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类或 r 类命令的执行。 

在 ols 3 . ado 中的几个 ereturn 行都是保存这种 e () 结果，并使用它们作输出 


显示 


dof( % df 1 ) obs('nobs 1 ) depname ( 、 1 f ) III 


post s b f 

esample( 、 touse T ) 


V 1 


ereturn 


上述命令设置 e () 结果的内容，包括系数向量 （ b ) 和方差协方差矩阵 （ V )。 这使得 

help estimates 和 help postest 所详细介绍的那些后续估计 （ post - 

estimation ) 功能成为可用。 此命令的选项定义了残差自由度 （ df )、 估计所用的观测 

案例数 ( nobs ) 、因变量名称 （'1 '表示当我们运行 tokenize varlist (即表示变量 

表）时取得的第一个宏的内容）以及估计样本的标记 （ touse )。 


ereturn local depvar " 1 f " 

这一命令在 tokenize varlist 后设置因变量 （ 即宏 1) 为宏 e( depvar ) 的内容。 

ereturn local cmd "ols3” 

这一命令将命令的名称 ols3 设置为宏 e( cmd) 的内容。 

ereturn display, level ( 'level 1 ) 


命令 ereturn display 显示我们前面的 ereturn post 形成的系数表。这一输 

岀表为标准 Stata 格 式:它 的前两列为系数估计(从 b 提供）和标准误（即 V 的对角线元 
素的平方根）。其他列分别为 t 检验（第一列除以第二列）、双尾 t 概率以及根据 ols 3 
的有关命令行指定的水平(默认水平为95% )计算的置信区间。 


看助法 


自助法 （bootstrap ) 指一种不断在现有数据中重复随机重置 （with 
replacement ) 取样的过程。这里我们不再相信一个估计量的理论抽样分布，而是根据 
经验方法近似计算出这一分布来。抽取次样本规模为71的自助样本（从规模也为 n 的 
原始数据样本中重置抽取）可以得到&个新的估计。这些自助法估计的分布提供了用于 

估计标准误或置信区间的经验基础 （ Efron 和 Tibshirani , 1986;有关介绍还可见 
Stine 在 Fox 和 Long 主编著作中的论文，1990 ) 。自助法在一些情况下很有吸引力， 

比如，当统计研究遇到理论上难以解决的问题，或者当常规理论的假定条件站不住脚的 


场合 


与蒙特卡罗模拟 （Monte Carlo simulation ) 需要制造数据不同，自助法完全是 

根据实际数据来进行工作。作为示范，我们将使用数据 isJands . dta ， 其中包含8个太 

平洋群岛的地区面积和生物多样性的指标（引自 Cox 和 Moore ，1973 ) 。 


%15s 


st r 1 5 
float 
byte 


Island group 
Land 

Number of bird 

Number flowering plant 


km A 2 


area 


genera 


genera 


is land 
area 
birds 
plants 


Sorted by 


设想现在我们要为鸟类种属的平均数计算置信区间。通常对平均数的置信区间是 

从正态分布假定推导出来。然而，当其为一个偏态分布时我们可能并不想做这种假定， 
甚至就这样极小的样本 （n = 8 ) 也几乎导致我们拒绝正态 假定： 


sktest birds 


Skewness/Kurtosis tests for 


Normality 


j oi nt 


Variable | 


Pr(Skewness) 


Pr(Kurtosis) adj chi2 (2) 


Prob>chi2 


birds I 


0,079 


0.181 


4.75 


0,092 8 


自助法提供了 一种更为经验性的方法来形成置信 区间。 
summarize, detail 悄悄地将其结果暂存了一系列的宏。这些宏中的一些为 

观测案例数 
平均数 


一个 r 类命令 


r(N) 


r ^ mean 
r( skewness ) 偏度 


最小值 
最大值 

第50分位数，即中位数 

方差 

合计 

标准差 

暂存这些结果简化了自助法形成任何统计量的工作。要想基于1 000次重复取样 

为鸟类平均数取得自助置信区间，并且将结果存为一个新文件 bootl . dta ， 可键入以下 

命令(其输出包含一个关于缺失值潜在问题的警告提示 （ Warning ) ，但是它并不适用于 
这些数 据）： 


r ^ mm 
r(max) 
r(p50) 

r(Var) 
r(sum) 
r ( sd) 


birds r detail 


u 


rxz 


r(mean)" 


rep (1000) saving(bootl) 


command : 

statistic : 


summarize birds 
bs 1 


detail 


r (mean) 




Warning : 


Since 


summarize is not an estimation command or does not 
(sample), bootstrap has 
used in 


set 


e 


way to determine which observations 
calculating the statistics and .so assumes that all 
observations are used 


no 


are 


This means no observations will exc 1 uded 
from the resampling due to missing values oi: other 


reasons 


If the 

the observations that 
memory contains only the relevant data 


assumption is not true 


press Break, 
are to be excluded * 


the data, and drop 
Be sure the dataset in 


save 


storage display 
variable name type format 


value 

label 


variable label 


334 I 


应用 STATA 做统汁 分析 


Contains data from c:\data\islands *dta 
obs 


8 


Pacific island biodiversity 
(Cox & Moore 1993) 

1 Aug 2005 10:50 


4 


var s 


208 <99.9% of memory free) 


size 







g g g 

o o o 
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8 


Number of obs 
Replications 


Boots trap statistics 


1000 


Std - Err. [95% Conf. Interval' 


I Reps Observed 


Bias 


Variable 


475875 12.39088 23.30986 

25*75 


71,94014 (N) 

74,8125 (P) 

78.25 (BC) 


47.625 


bs ：L I 1000 




* 


27 


normal 

percentile 

bias-corrected 


Note 


N 


P 


BC 




命令 bs 的声明括在双引号中 （ "summarize birds, detail") ，表明要自助估计 

的是什么分析。在这其后是指定什么统计量要作自助估计，同样也是被括在自己的双引 
号中 （" r ( mean )")。 还可以列人更多的统计量，但是在每种统计量之间用一个空格分 
开。上述例子还指定另外两个 选项： 

rep (1000) 


要求重复1 000次，即抽取1 000个自助样本。 

saving(Jbootl ) 将这1 000个自助样本平均数存人 一 个名为 bootl .dta 

的数据文件。 

命令 bs 的输出表显示了所完成的重复次数和要自助估计的统计量的“观测的” 

_ 

_ 

( Observed ， 即原始样本的）值。在本例中， birds 的平均数值为 47.625 。表中还显示 
了估计偏差 （ Bias )、 标准误 （ Stn . Err .) 以及三种类型的置信区间 （ [95% Conf . 

interval] ) 0 在这里，“偏差”指所要统计量的; c 个自助样本值的平均数（比如 ,1 000 
个自助样本的 birds 平均数的平均数）减去观测的统计值。估计的标准误等于； c 个自 
助统计量值的标准差（比如，1 000个自助样本的 Mrds 平均数的标准差）。这一自助 

标准误 (12.3 9) 小于用命令 ci 计算出的常规标准误 (13 .38)： 


i birds 


Variable 


Obs 


Std. Err 


Mean 


[95% Conf * Interval] 




birds I 


8 


47.625 


13*38034 


15.98552 


79.26448 


命令 bs 的输出表中按正态近似 ( N ) 的置信区间按以下公式 计算： 

观测的样本统计量± f x 自助标准误 

其中 t 是从自由度为 k -1 的理论 t 分布中所选的概率度值。通常的建议是当自助分布 
表现为无偏并近似于正态分布时再使用这种置信区间。 

输出表中的百分位数 （ P ) 置信区间就是简单使用自助分布的相应百分位数（95%置 
信区间对应着第 2 . 5 和第 97 . 5 这两个百分位点）作为区间的上下限。当自助分布表现 
为无偏但是呈非正态时,这种置信区间可能比较恰当。 

偏差修正 （ BC ， 即 bias - corrected ) 置信区间也使用了自助分布的百分位数，但是 

在选择百分位数时则是按自助值小于或等于观测统计量的比例所调整的正态分布中取 

得的。当存在很大偏差（一个经验规则是当偏差超过1个标准误的25% )时，这种置信 
区间可能更可取。 

因为我们将自助结果存人了名为 bootl .dta 的文件，所以如果需要，我们便可以将 
其取出并更仔细地检查自助分布。选项 saving (Jbootl ) 创建一个有1 000观测的数 
据，其中名为 Jbs_l 的变量就是每一个自助样本的平均数。 
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Contains data from c : \data\boot1,dta 

obs 
vars 
size 


1 000 


bs 


summarize birds, detail 

1 Aug 2005 15:10 


8 000 (99.9% of memory free) 


storage display 

variable name type format 


value 

label 


variable label 


bs 1 


float % 9 * 0 g 


r (mean) 


Sorted by 


summarize 


Variable | 


Obs 


Std. Dev 


Mean 


Min 


Max 


bs 1 I 


1000 


47 _14912 


12*39088 


14. 625 


92.5 


注意这 1 000 个自助平均数的标准差就等于前面 bs 输出表中所示的标准误 
( I 2 . 39 )。这1 000个自助平均数的平均数减去观测（即原始数据）平均数就等于偏差： 

47. 149 12 - 47. 625 

图 14.3 展示了这1 000个样本平均数的分布，以及用垂直线标注的原始样本平均 

数( 47 . 625 )。这个分布显示出轻微的正偏态，但是与理论正态分布的差别不大。 

, histogram bs 1, 

xlabel (47.635 , axis (2) ) xtitle < " T . , axis (2)) 

图 14,3 


一 a 475 88 




bcolor(gslO) 


(1 2) xline(47.625) 


norm 


xaxx 


47636 


S - 


t 


o 


■ o ^ 


20 


40 


100 

垂 A A ^ 


rfmdan) 


生物学家已经观察到，生物多样性、或植物和生物的不同种类，倾向于随着海岛的面 
积而增加。在数据集 islands.dta 中，我们有鸟类和开花植物的数据来检验这个命 

正如预期的一样，在鸟类品种 birds 和面积 


之间存在着很强的线性 关系: 


area 


o 


regress birds area 


Source 


ss 


df 


MS 


Number of obs 

F( l f 
Prob > F 

R-squared 
Adj R-squared = 

Root MSE 


6 ) 


162.96 
0.0000 
0.9645 
0.9586 
7.7033 




Model I 9669.83255 

Residual | 356,042449 


1 9669,83255 

6 59.3404082 




Total I 10025.875 


7 1432-26786 











Observed 


B 


Variable 


0019947 
0019759 
00199 

1000 13.97169 .6230986 3-637705 6.833275 

7.891942 

6*949539 


0033077 

0029066 
0029246 
21.11011 
21,74494 
19,73012 


0003345 


0026512 - .0000737 


1000 


bs 1 






_ 


■ 


* 


, 






bs 2 


normal 
^ percentile 
=bias-corrected 


Note : N 




P 


BC 


的系数自助分布严重偏态（偏度= 4.12 ) 。尽管平均数的自助分布 （ 图 14.3 ) 
近似为正态，并且得到的自助置信区间窄于理论置信区间，但是对这个回归例子应用自 
助法却取得了较大的标准误和更宽的置信区间。 

就回归而言，通常完成所谓的“数据再抽样 ” （data resampling ) ，换句话说就 

h 

是在不改变数据的情况下再抽样。有另外一种程序称为“残差再抽样 ” （residual 
resampling )( 即只对残差再抽样），就需要做一些编程工作了。有另外两个命令可为 

这样自制的自助法提供 便利： 


area 


从现有数据中回置性地抽取一个样本，并取代内存中的数据。 
bootstrap 运行用户定义的程序，重复: reps () 次，自助样本规模为 size () 

《基础参考手册》提供了使用 bootstrap 命令的例子及程序。 


b 


o 


荥特卡罗祺枳 


蒙特卡罗模拟 （Monte Carlo simulation ) 形成并分析人造数据的许多样本，允 

许研究者研究他们所用统计技术的长期行为。命令 simulate 使设计一个模拟轻而易 

举,只需要再附以少量的编程。本节提供两个示例。 

要做一个模拟，我们就需要定义一个程序来创建一套随机数据，对其加以分析，并且 
将所关心的结果保存在内存里。下面我们来看一个定义为 r 类的程序（能够暂存 r () 
结果），名为 central 0 这个程序随机产生标准正态分布的变量 x 的100个值。然后它 

再由一个“不纯的正态分布”产生另一个变量 w 的100 个值； 这个不纯 


^ \i\9Z 




3 
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[95% Conf * Interval] 


P> 11 


Std* Err 


t 


Coef 


birds 


9 


0031594 
23.24662 


002143 

4 .696773 


0 - 000 
0.010 


12.77 

3*69 


0002077 

3.79046 


0026512 

13,97169 


area | 

cons I 




* 




♦ 


如本章以前所述， e 类命令 regress 会保存一套 e () 结果。它还创建或更新一套 

]) 和标准误（ _ se [ varname] ) 的系统变量。要对前一 


包含模型系数 （_ b [ 

个回归的斜率以及 y 截距应用自助法，并将结果存于文件 boot ^ dta ， 就键人 


varname 


[ cons]", rep(1000) 


regre birds area 11 " b[area] 
aving (boot2) 


regress birds area 

b[area] 
b [ cons] 


command : 
statistics 


bs 1 


bs 2 


8 


Number of obs 
Replications 


Bootstrap statistics 


1000 


Std 


[ 95% Conf 


terva 


as 


* 


\/ \/ \J/ ^Jr t)#. 

N p c N p c 











float 

float 

float 

float 


xmean 

xmedian 

wmean 

wmedian 


r (xmean) 
r (xmedian) 
r (wmean) 
r(wmedian) 


Sorted by 


来自 5 ooo 个样本的这些平均数和中位数的平均数都接近于0,与我们关于样本平 
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( contaminated ) 的正态分布是由 0.95 概率的 N (0 ，1)和 0.05 概率的 N (0 ，10)构成 

的。不纯正态分布经常被用于稳健研究，以模拟那些含有少数异常误差的变量。对上述 
所产生的两个 变量， central 取得其平均数和中位数。 


Creates a sample containing n=100 observations of variables x and 

is standard normal 
w is contaminated normal 


w 


N(0,1> 


x 




X 


★ w-N(0,1> with p=.95 

★ Calculates the mean and median of 

★ Stored results 
program central, rclass 

version 8*0 
drop _all 

set obs 100 


w 〜 N(0,10> with p=_05 

and 

r (xmedian) 


x 


w 


r (xmean) 


r (wmean) 


r (wmedian) 


generate 

summarize x, detail 
return scalar xmean 
return scalar xmedian 

generate 

replace 

summarize w 

return scalar wmean 二 
return scalar wmedian 


{ uniform ()) 


x 


mvnorm 




r(mean) 

二 r (p50) 

(uniform()) 

1 0if uniform () < ,05 

detail 




w 


invnorm 




w 


f 


r (mean) 

r (p50) 




end 


由于我们定义 central 为 r 类命令，就像 

保存于 r () 宏中。 central 建立4个这样的宏 :变量 x 的平均数 r ( 

数 r(xmedian) ， 以及变量 w 的平均数 r ( wm ean ) 和中位数 r ( wmedian )。 

旦定义了 central ， 不管是采用 do 文件、或是 ado 文件、或是键人交互命令，我 
们都能用命令 simulate 来调用这个程序。从5 000个随机样本建立包含 x 和 w 的平 
均数和中位数的新数据， 键人： 


一样，它可以将自己的结果 

) 和中位 


summarize 


xmean 




imulate "central 

wmean = r(wmean) wmedian = 


( xmean ) xmedian 


( xmedian ) 

( wmedian ), reps (5000) 


command : 
statistics 


central 

xmean 

xmedian 

wmean 

wmedian 


r(xmean) 
r(xmedian) 
r(wmean) 

r(wmedian) 

这个命令基于 central 的每一次重复的 r () 结果建立了 4个新变量 

xmedian ^ wmean ^ wmedian 0 

describe 


xmean 


Contains data 

obs : 
var s : 
size: 


5 000 


simulate : central 

1 Aug 2005 17:50 


100 000 (99.6% of 


memory free) 


storage display 
type format 


value 

label 


variable name 


variable label 


o 


g g g 
ooo 


9 9 9 9 
% % % % 
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summarize 


StdL Dev 


Max 


Obs 


Mean 


Variable 


3699467 

4740642 

8774976 

5152998 


4112561 

4647848 

-1 _ 11406 
4584521 


0987788 

1246915 

2470823 

1303756 


0015915 

0015566 

0004433 

0030762 


5000 

5000 

5000 

5000 


xmean | 
xmedian 

wmean | 

wmedian I 






番 


9 


_ 


_ 






_ 


♦ 


4 


赫 




峰 








* 




* 


_ 


均数和中位数都能提供 x 和 ^ 的真实总体平均数 （ o ) 的无偏估计的期望是一致的。同 
样符合理论预测的是，当应用于正态分布的变量时，平均数展示了比中位数具有更小的 

不同样本之间的变异。 xmedian 的标准差为 0.125 ，比 

多。另一方面，当蒙特卡罗模型应用于有特异值的变量^时,便出现了相反的结果 

wmedian 的标准差却比 

验展示出，中位数在不纯分布含有特异值的条件下来测量中心趋势时要相对更稳定，然 
而平均数却不太好，并在不同样本之间有着的更大变异。图 14.4 提供了箱线图的形象 
化比较 （ 附带地示范一下如何控制箱线图中特异值标注符 号）： 


的标准差 （0.099) 大很 


xmean 


的标准差小得多 （0.130 对比 0.247)。 这一蒙特卡罗试 


wmean 


wmedian, yline(0) legend(col(4)) 


graph box 


xmean xmedian wmean 


marker(1, msymbol(+)) marker(2 , msymbol(Th)) 
marker(3 , msymbol(Oh)) marker(4, msymbol(Sh)) 


14*4 


我们最后的例子扩展到稳健方法，并且还联系到本书中几个方法。程序 regsim 将 
产生100个案例的 x 观测（服从标准正态分布）和两个 y 变量。 yl 是 x 的线性函数再 
加上标准正态误差， y 2 也是 x 的线性函数但是再加上不纯正态误差。这些变量允许我 
们探测在正态误差条件下与非正态误差条件下的不同回归方法有怎样的行为。将应用 
四种方法：常规最小二乘法 （ regress ) ，稳健回归 （ rreg ) ，百分位数回归（ qreg ) , 

以及百分位回归及自助法标准误 （ bsqreg ，做500次重复）。这些方法之间的差别在 
第9章中已经做过讨论。程序 regsim 应用每一种方法做 yl 对 x 的回归、然后做 y 2 对 
的回归。对于这 一 练习，程序是由 ado 文件 regsim . ado 来定义的，这一文件存放在 

目录 “ C : \ ado \ personal ” 中 0 


x 
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rclass 


program regsim 

Performs one iteration of a Monte Carlo simulation comparing 


★ 


OLS regression (regress) with robust (rreg) and quantile 
(qreg and bsqreg) regression 
with 


100 sample 


Generates one n 




〜 N (0,1) and y variables defined by the models 


x 


yi 


2x + el 


MODEL 1: 


e 1 


N(0,1) 


MODEL 2 


y2 


2x + e2 


K(0,1) with p 
N(0,10) with p = .05 


e2 


95 




0 2 




★ 


Bootstrap standard errors for qreg involve 500 repetitions 


8.0 


version 


if 


II ' 


1 * 


fdelimit ; 

global S_1 "bl blr selr blq selq selqb 

b2 b2r se2r b2q se2q se2qb"; 

#delimit 
exit 


cr 


drop _all 

set obs 100 


generate 
generate e 
generate y1 
reg yl 


mvnorm (uniform () } 

invncrm(uniform()) 

2 * x + e 


x 




x 


return scalar Bl 


b[x] 




rreg yl x, iterate {25) 

return scalar BlR 

return scalar SE1R 


b[x] 




se [x] 


qreg yl 


x 


return scalar B1Q 

return scalar SE1Q 
bsqreg yl x, reps {500) 

return scalar SE1QB 
replace e 

generate y2 - 2*x + 

reg y2 


b[x] 

se [x] 




se [x] 

e if uniform () < ,05 


10 


女 




e 


x 


return scalar B2 

rreg y2 x, iterate(25) 

return scalar B2R 
return scalar SE2R 


b[x] 




b[x] 




se [x] 


qreg y2 


X 


return scalar B2Q 

return scalar SE2Q 
bsqreg y2 x, reps (500) 

return scalar SE2QB 


b[x] 
se [x] 






se [x] 




end 


这一 r 类程序保存 8 个回归分析所估计的回归系数或标准误结果。这些结果文件 
的命名规则 如下： 

r ( Bl ) 
r ( BlR ) 
r ( SElR ) 


yl 对 x 的 OLS 回归的系数 

yl 对 x 的稳健回归的系数 
模型1的稳健回归系数的标准误 

如此等等。所有的稳健回归和百分位数回归都涉及多次迭代 :对于 rreg —般需要迭代 
〜10次，对于 qreg 一般需要迭代 5 次，对于要求 5 00次自助重复估计的 bsqreg 而 
每一次取样的每个估计大约需要迭代5次。于是 ，一 次运行 regsim 命令需要做 


5 


曰 ， 


float 

float 

float 

float 

float 

float 


float 

float 

float 


float 

float 


float 


Obs 


1362755 
2.006001 
2,000399 
1081348 
2,000701 


032673 
2484688 
1092553 
0119274 
137111 


0510808 
9001114 
1 * 633241 
0743103 
1.471802 


29979 
3.050552 
2.411423 
1560973 
2.536621 


* 


* 


» 


» 


ft 


_ 


鲁 


_ 


帶 


■ 


* 


_ 


selqb 


b2 


b2r 


se2r 

b2q 


bl 


5000 

5000 

5000 

5000 

5000 


2.000828 
2-000989 
1041399 
2.001135 
1262578 


102018 
1052277 
0109429 
1309186 
0281738 


1 . 631245 
1 . 603106 
0693786 
1,471802 
0532731 


* 


blr 

se lr 






_ 


* 


blq 


* 


selq 


* 


* 


_ 


OLS b (normal 

Robust b (normal errors) 
Robust SE[b] (normal errors) 
Quantile b (normal errors) 
Quantile SE[b] {normal 
Quantile bootstrap SE[b] 

(normal errors) 

OLS b (contaminated 
Robust b {contaminated 
Robust SE[b] (contaminated 

errors) 

Quantile b (contaminated 
Quantile SE[b] (contaminated 
errors) 

Quantile bootstrap SE[b] 

(contaminated 


errors 


errors 


errors 


errors 


errors 


errors 


Std. Dev 


Max 


Mean 


bl 


blr 

sel r 


blq 


selq 

selqb 


b2 


b2r 

se2r 


b2q 

se2q 


se2qb 


Sorted by 


summarize 


Variable | 


se2q 

se2qb 


5000 

5000 


1328431 

1436366 


0299644 

0346679 


0542015 

0589409 


2594844 

3006417 




_ 


摯 


* 


争 


_ 


* 


_ 


图 i 4 . 5 画出了这些回归系数分布的箱线图。为了使这个箱线图更容易看，我们用 

了选项 legend ( symxsize (2 ) colgap ( 4 )) ，这个选项设置图例内部符号的宽度，并 


20 


[ 译注： 因此试验结果将与本书中结果明显不同！】 






value 

label 


Y 


variable label 


storage displ 

variable name type forma 
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20 


2 000 多次回归。以下命令只要求做 5 次迭代 


0 


r (Bl) blr = r (B1R) selr = r (SE1R) 


bl 


VI 


simulate n regsxm 

blq = r(B1Q) sel = r(SE1Q) selqb = r(SEXQB) b2 

b2r = r(B2R) se2r = r(SE2R) b2q = r(B2Q) se2q 


r (B2) 
r(SE2Q) 






se2qb = r(SE2QB) , reps () 


一般你应该先试运行像这样一个很小的模拟来试验一下在你电脑上大约要用多长 
时间。然而要是为了研究的目的，我们将需要大得多的试验。数据集 regsim . dta 包含 

了涉及5 000次重复的 regsim 的结果，这一个运行就做了 1 000万个以上的回归，花 

了一夜的时间。这一试验取得的回归系数和标准误估计的概要统计 如下： 


describe 


Contains data from C : \data\regsim.dta 
obs : 


5 000 


Monte Carlo estimates of b in 
5000 samples of n=100 
2 Aug 2005 08:17 


12 


var s 


260000 (99-0% of memory free) 


size 


g g g g g gg g g 
oooooo ooo 


g g 

o o 

• _ 

9 9 9 9 9 9 
% % % % % % 


g 


o 


9 9 9 9 9 9 
% % % % % % 


o o o o o 
o o o o o 

o o o o o 

5 5 5 5 5 


4 6 118 
14 2 2 0 
8 9 4 6 5 
4 15 6 1 
0 9 13 7 

3 5 5 3 
* 1 * 2 
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且将列间距设为小于原本的默认尺寸。 help legend _ option 和 
relativesize 可以提供更多有关这些选项的信息。 


help 


graph box Jbl blr blq b2 b2r b2q f ytitle ("Estimates 

yline (2) 


lo 


(b=2) 11 ) 


o 


legend(row(1) symxsize(2) colgap(4) 

label (1 f, OLS 1"> label ( 
label( 


robust 1 M ) label( 
robust 


quantile 1 M ) 
quantile 2 M 


OLS 2 f, ) label ( 


)label ( 


14.5 


'S 


E 


quantile 2 


这三种回归方法 ( OLS 、 稳健、分位数)对这两种模型的平均系数估计与 芦真值 々 =2 之间 
的差距并不显著。这能够通过 t 检验加以 确认： r 

ttest b2r = 2 


One-sample t test 


Variable | 


Obs 


Mean 


Std. Err 


S td. Dev 


[95% Conf * Interval] 


b2r [ 


5000 


2,000399 


0015451 


1092553 


1 . 99737 


2.003428 




暑 


Degrees of freedom: 4999 


Ho : mean(b2r) 


2 




Ha : mean < 2 

0.2585 
0•6020 


Ha : mean ! - 2 

0.2585 
0.7960 


Ha : mean > 2 

0.2585 
0.3980 


t 


t 


t 


P < t 


P > I t 


P > t 




于是，所有回归方法都得 到了々 的无偏估计，但是在它们的样本变异或效率性上却 
有所不同。应用于正态误差模型1 ， OLS 估计是最高效的，正如著名的高斯 一马尔 可夫定 
理引导我们所期望的那样。 OLS 系數的观测标准差为 0.102 0,稳健回归则相应为 

°- 105 2 ，而百分位回归的相应统计为0.1；30 9 。相对效率表达了 OLS 系数的观测方差 

是其他某种估计方法观测方差的百分比，它提供比较这类统计量的一种标准 方式： 


quietly summarize bl 
global Varbl 


(Var) 

• quietly summarize blr 

- display 100*($Varbl/r(Var)) 

93,992612 
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blq 


• quietly 
.display 100*($Varbl/r(Var)) 

60.722696 


sumxnarxze 


上述计算使用了由 summarize 取得的 r ( Var ) 方差结果。我们先求出 OLS 回归 

估计 M 的方差，并将其存放于全局宏 Varbl 中。接下来依次求出稳健回归估计 hi r 的 
方差，以及百分位回归估计 Mg 的方差，并且将其与 Varbl 进行比较。结果表明，在应 
用正态误差模型时，稳健回归的效率为 0 LS 估计的94% ， 接近于稳健方法理论上应该有 

的95%的大样本效率 （ Hamilton , 1992 a )。 相比之下，在正态误差模型时的百分位回 

归只取得了 61%的相对效率。 

对不纯误差模型作类似的计算却讲出另一番不同的故事。 OLS 在正态误差时是最 
佳（最有效率的）估计，但是应用于不纯误差时，它却成为最差的 估计： 

, quietly 

, global Varb2 = r(Var) 

.quietly 

• display 100*($Varb2/r(Var)) 

517.20057 

,quietly 

• display 100*($Varb2/r(Var ) 〉 

328.3971 

f 纯误差模型中的特异值造成 OLS 系数估计在不同样本之间变异很大，正如在图 14.5 
中的结四个箱线图所示。这些 OLS 回归系数的方差已经比相应稳健回归系数的方差大了 
5 倍以上，比百分位回归系数的方差大了 3倍以上。换句话说，在有特异值的情况下，已经 
证明稳健回归和百分位回归要比 OLS 估计稳定得多，可以得到相应较小的标准误和较窄的 
置信区间。在正态误差和不纯误差两种模型中，稳健回归都胜于百分位回归。 

图 14.6 以散点图形式展示了 0 LS 估计与稳健估计的5 000对回归系数的比较。 

OLS 系数(纵轴)关于真值 2 .0的变异比 rreg 系数(横轴）的相应变异更大。 

_ graph twoway scatter b2 b2r f msymbol(p) ylabel(1(.5)3, grid) 

yline (2) xlabel(1( .5)3 f grid) xline(2) 


b2 


summan 




b2r 


summarize 


b2q 


summarize 


图 14 .6 


2 


Robust b (cdritaSTrtmJrted errors 》 
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这一试验还提供了各种方法和模型的估计标准误的信息。平均估计标准误与系数 
的观测标准差不同。对于稳健标准误来说这一差距很小，小于1%。对于理论推导的百 
分位回归标准误，这一差距表现得较大一点，在3 %至4%之间。令人最不满意的估计就 
是由 bsqreg 取得的自助法百分位回归估计。自助法标准误的平均数超过了 Mg 和 
垃<3 的观测标准差为 4 %至5%。自助法显然高估了样本之间差异。 

蒙特卡罗模拟在现代统计研究中已经成为关键的方法，它在统计教学中同样起着越 
来越大的作用。这些示例展示了使用 Stata 能多么容易地完成蒙特卡罗模拟。 
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便携网络图形格式 （_ png ) 图 Portable Network 

Graphics (.png) graph ， 6 ， 100. 

变换版本.命令 

变量 x 的条形图 （ 质量控制） x-bar chart ( quality 

control) ， 91-93, 

变异系数 coefficient of variation, 106-7. 

变异系数.命令 

105-7. 


forum, 9 


逐步模型拟合.命令 sw( stepwise model fitting), 163 




tobit 回归 tobit regression, 164. 
Turky, John, 107. 
t 检验 f test 

不等方差 unequal variance, 129. 

， 124. 


， 316 


version 


平均数 

稳健平均数 robust 


means 


(coefficient of variation ) ’ 


， 222 _ 

相关系数 correlation coefficient, 139 ， 149-51 


cv 


means 


f 检验.命令 ttest ， 124-30 ， 342* 

i 检验中的不等方差 unequal variance in t test, 

124, 128-30, 

Weibull 回归（生存分析 ） WeibuU 

(survival analysis) ， 265 ， 266-68. 

Welsch 距离 Welsch’s distance ， 145 ， 178-82. 

白噪声 white noise, 310. 

Wilcoxon 符号秩检验 Wilcoxon signed- rank test, 

124, 126. 

Wilcoxon 秩和检验 Wilcoxon rank-sum test ， 124, 

128-29, 132- 

Windows 元文件格式 （ .wm£/. emf ) 图 Windows 

metafile ( . wmf or . emf) graph ， 100- 


标准差 standard deviation, 105-7 ， 108 ， 116, 
标准化变量 standardized variable, 30 ， 289 - 
标准化回归系数 beta weight ( standardized 

gression coefficient) ， 139, 142-44. 

标准误 standard 

方差分析 ANO VA, 134-37. 

回归预测值 
147-49. 


regression 


e 


LI Cl 


prediction ， 145 ， 


regression 


平均数 

稳健 robust, 222-26. 

稳健 （ Huber/White ) robust ( Huber/ 

White), 139. 

自助法 . 见自助法 . bootstrap- See bootstrap 


， 107 


mean 


Windows 兀文件格式 （_ wm£/. emf ) 图 Windows 标准误条形图.命令 serrbar ( standard- 

metafile (.wmf or emf) graph, 6 

Z 分数（标准化变量） 

ble) ， 289. 

Z 分数 ( 标准化变量） 

ble) ， 30, 

案例（对协方差矩阵估计）的影响比 COVRA- 


bar plot) ， 124 ， 135-37. 

表格输出整理 * 命令 tabstat ， 103, 105-7 

饼图 pie chart ， 61 ， 81-83- 


(standardized varia- 


z score 


饼图 • 命令 graph pie ， 61 ， 81-83 
波动 rough, 301. 

波段回归 band 

泊松回归 


(standardized varia- 


z score 


regression, 188-90, 

poisson regression, 253 ， 268-71 ， 275. 

泊松拟合优度检验.命令 poiegof ( Poisson 


TIO, 145, 171 ， 179. 

案例识别码 


identification number, 35-37. 


case 
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导人固定格式数据.命令 infix ( read fixed- 

format data) ， 38-40. 

导人数据 import data ， 36-40. 

导入文本 数据. 命令 infile ( read ASCII da¬ 
ta) ,13-14, 37-40. 


goodness of fit test) , 269-70, 

不等 inequality, 21. 

布局（图例 ）• 命令 placement ( legend in 

graph) ， 98. 

残差 residual, 138-40, 145, 174-81. 

残差对拟合值（预测值）标绘图 residual- 

ted (predicted values) plot ， 139, 147, 164-66, 

172, 174. 


-fit- 等方差 Bartlett’s test for equal variances, 129-31 

点图 dot plot ， 62, 83, 87, 131. 

点图.命令 graph dot ， 62 ， 83 ， 86-88，131 

残差对拟合值标绘图.命令 rvfplot ( residual- 电子表格数据 spreadsheet data, 38-40. 

调查抽样权数 survey sampling weights ， 50-51 ， 140, 

残差对预测变量标绘图.命令 rvpplot ( resid- 迭代再加权最小二乘法 iteratively reweighted 


vs_ 






- fitted plot )， 139, 164-66 ， 172 ， 174. 


vs 


ual-vs. - predictor plot) , 172 , 174. 

插入 insert 

表 table into document, 4. 

图形 graph into document, 5. 

查看 ado 文件的版本信息.命令 which ， 325. 

差分（时间序列分析 ） difference ( time series ) ， 

304-5. 


least squares (IRLS) ， 209. 

叠并二维图 overlay twoway graphs, 95-98. 

定序变量 ordinal variable, 32-34, 

定义变量标签.命令 label variable, 

16, 17. 

定义调查数据 • 命令 svyset ( survey data defi¬ 
nition) ， 51. 


常见问题解答 FAQs ( Frequently asked 定义计数时间数据，命令 ctset (define count- 

questions ), 7, 

程序 变元. 命令 args ( augments in program), 

319-20. 


time data) , 251 ， 255-56, 

定义取值标签.命令 label define， 25 

定义生存时间数据 ■ 命令 stset ( define 

al-time data) ， 251 ， 253-54, 258. 

定义时间序列数据 •命令 tsset ( define time 

series data) ， 296 ， 298 ， 301. 

定义数据标签 , 命令 label data ， 17, 

读取图形 文件 . 命令 graph use ， 100. 

对称图 symmetry plot, 88. 

对调查数据回归.命令 


surviv- 


程序中的注释 comments in programs , 317, 322-23, 

325- 26, 

抽样.命令 

14, 55. 

抽样权数 sampling weights, 50-51. 

创建•命令 generate ， 13, 22-25, 35, 36 
替换■命令 replace, 23-25. 

创建数据.命令 

range) , 204, 

创建新变量 . 命令 egen ， 31 ， 288, 296, 299. 

存活率的双对数图 . 命令 stphplot ， 252, 

打开数据编 辑器 . 命令 edit (Data Editor) , 

13, 15-16. 

打开文件 open file, 2. 

打幵文件 • 命令 use, 2-3 ， 15. 

打印结果 print results, 4. 

打印图片 print graph, 5. 

代数运算符 arithmetic operator ， 25. 

单位根 unit root, 309-10. 

单一样本 《 检验 

单因素方差分析 one- way ANOVA , 129-32 

刀切法 jackknife 

标准误 standard 
残差 residuals, 145 


le ( draw random sample ) ’ 


s 


svy. 

regress (survey data regression) , 140. 

对数 logarithm, 26, 109-12 ， 194-99. 

多层混合效应模型 ■ 命令 xtmixed (multilevel 

mixed-effect models) , 141. 

多项 logistic 回归 multinomial logistic regression, 

229, 241， 243 - 49 * 

多项式回归 polynomial 
多重比较检验 multi pi 

单因素方差分析 one- way ANOVA, 130-32. 

相关矩阵 correlation matrix ， 150-51, 

多兀共线性 multicollinearity , 182-86. 

—^维 lowess 修勻 线图， 命令 graph two way 


(create data 


r 




over 


164-66 


regression 


e-comparison test 


sample t test ， 124-27 


lowess ， 76, 78-79, 188, 190-93. 

二维带置信区间的回归 线图 . 命令 graph two- 

y lfitci, 76, 95-97, 148-49. 

二维点线图 _ 命令 graph twoway dot, 76, 


one- 




， 272-75 


errors 


y 
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非线性回归 nonlinear regression ， 188 ， 201-6. 

thing, 296-97, 299-301 


qfit ， 76, 95, 165. 

二维 回归线图.命令 graph twoway If it ， 

60, 69, 76, 95, 146, 157. 

二维连线图.命令 graph twoway connect¬ 
ed, 5 ? 46- 47 ， 61 ， 71-73 ， 74- 75 ， 98, 

136, 167. 


_ 巨线 性修勻 nonlinear 

分波段中位数连线二维图 . 命令 graph t 


fllltic 


way mband, 76, 188-90. 

分波段中位数样条连线二维图.命令 graph 

twoway mepline , 76 ? 158 ， 165 ， 190，196 

248-49. 

分层线性模型 hierarchical linear models ， 141- 

分隔 ( 命令行结束 ) 标志.命令 #delimit (end- 

of- line delimiter) ， 56 ， 100, 315. 

分解. 命令 collapse ， 47-49. 

分类变量 categorical variable, 32-36. 

分类表 （logistic 回归 ） classification table ( logis¬ 
tic regression) , 229, 234-36. 

分量加残差标绘图 component- plus- residual plot, 

171-72, 175-77. 

分位数 quantile 

定义 defined, 88. 

分位-分 位 标绘图 quantile-quantile plot ， 

89-90. 

分位数标绘图 quantile plot, 88-89. 

分位-正态标绘图 quantile-normal plot, 

I 

62 ， 89. 

回归 regression, 207-22 ， 339-43. 

分位数回归 • 命令 bsqreg ( quantile regression 

with bootstrap) , 208 ， 213 ， 339-43, 

分位数阶梯 . 命令 gladder ， 111. 

分析 权数 . 命令 aweight (analytical weights) ， 49- 
风险函数 hazard function, 252 ， 263 ， 267 ， 268. 

圭 t 装后记格式 （.eps ) 图形 Encapsulated Post¬ 
script (,eps) graph, 6, 100. 

峰度 kurtosis ， 105-7, 108-10. 

符号检验 sign test ， 125-26. 

符号秩检验 signed -rank test ， 124 ， 126. 

负指数增长模型 negative exponential growth mod¬ 
el, 202. 

附加 .命令 append, 12, 39-42. 

附加变量标绘图 added- variable plot, 172 ， 

175-76. 

复制结果 copy results ， 4. 

概率或抽样权数 ■ 命令 pweight ( probability or 

sampling weights) ， 49-52, 

概要统计.命令 

tics), 2, 17, 19, 30, 79-81 ， 103-7, 333. 

闪泊兹增长模型 Gomperlz growth model ， 202-6. 

杠杆作用 leverage , 137, 138, 145, 170, 172, 




75, 79, 137. 

二维芒线图.命令 graph twoway spike, 75 ， 

77-78, 302. 

二维区 域图- 命令 graph twoway area ， 

75-77, 

二维曲 线图. 命令 graph twoway line ， 61 ， 

69-74, 97-98, 100 ， 192-93, 210, 211 ， 214, 
299-301 ， 323, 

二维散点图.命令 graph twoway scatter, 

59-61, 66-70, 157-59, 240, 343. 


二维图.命令 graph twoway 

叠并 overlays ， 60 ， 76 ， 95- 98 ， 299 - 301 ， 

302-4. 

全部类型 all types ， 75-76. 

发生率 incidence rate ， 251-53 ， 255 ， 258 ， 268- 

69, 271. 

方差 variance, 105-7, 108, 116, 186. 

方差分析 analysis of variance ( ANOVA) 

标准误 
单因素 

多因素 N^way, 132-33, 

回归 regression model, 133-34, 216-22. 

交互效应 interaction effects ， 123 ， 132- 34 ， 

135-37, 

三因素 three-way ， 123. 

双因素 two- way, 123, 132-33, 135-37. 

稳健 robust, 216-23. 

因子 factorial, 123, 132-33, 136. 

预测值 predicted values, 134-37. 

中位数 median ， 221, 

重复测量 repeated - 

方差分析.命令 

145 ， 207. 

方差分析用效应编码 effect coding for ANOVA, 


standard 


134-37. 


errors 


123, 135. 


one- way ， 


123 


measures 


123 ， 132-37, 


anova ， 


rize ( summary statis- 


216 


方差膨胀因子 variance inflation factor，171 , 183- 


85 


方差最大法旋转 varimax rotation, 277, 279-81 
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175- 79, 182, 199, 213-15. 

杠杆作用对残差平方标绘图 leverage- vs* - squared 

residuals plot ， 172, 176-78. 

杠杆作用对残差平方标绘图.命令 lvr2plot 

(leverage-vs. -squared residuals plot ) ， 172, 

176- 78. 

高低端值之间带条形的二维全距图.命令 

y rbar, 75. 

高低端值之间面积着色二维全距图.命令 graph 

， 75, 148. 


logistic , 227-49. 
probit ， 227-28, 273. 
tobit ， 164 ， 228. 

标准化回归系数 beta weight ( standardized 

regression coefficient) , 139 ， 143-44, 

泊松 poisson, 253, 268-71 ， 275. 

不含常数项 no constant, 142. 

残差 residual, 144-46, 147 ， 178-80. 

常规最小二乘 ordinary least squares (OLS ) ， 

138-44. 

常数 constant ， 142. 

多项 logistic multinomial logistic ， 229 ， 241 ， 

243-49. 

多项式 polynomial ， 164- 66. 

多元 multiple, 142-44, 

非线性 nonlinear, 201-6. 

工具变量 instrumental variable, 140. 

加权最小二乘 （ WLS) weighted least 
(WLS) ， 140, 212_ 

假设检验 hypothesis test, 139, 152-53, 

两阶段最小二乘 （ 2SLS ) two- stage least 
squares (2SLS) ， 140. 

曲线的 curvilinear, 164-66 ， 188 ， 193-201. 

删截正态 censored- normal, 230, 

稳健标准误 robust standard 

稳健的 robust, 207-22, 339-43. 

吸收分类变量 absorb categorical variable, 156 

线 line ， 60, 95-97, 138-39, 146-49, 165 
209, 211, 214. 

虚拟变量 dummy variable, 153-61, 

序次 ordered logistic, 241-43. 

预测值 predicted value, 144-46, 147. 

诊断 diagnostics, 145, 170-86. 

置信区间 confidence interval, 95-97, 142, 
147-49, 


t 




twoway 

格式 format 

输人数据 input data, 37-39 

数字显示 


rarea 


* 


numerical 


display, 13 ， 23- 


24, 312. 

图数轴标签 axis label in graph ， 69, 265 
工具变量（两阶段最小二乘法 ） instrumental 

iables (2SLS) ， 140, 

公因子方差 （ 因子分析 ） communality ( factor 

alysis) , 284. 

估计量效率 efficiency of estimator ， 343. 

固定和随机效应 fixed and random effects ， 141. 

关闭日志文件.命令 log close ， 6. 

关系运算（符） relational operators, 19, 
观测案例号 observation number, 36- 
过滤器 filter ， 299. 

函数 function 

概率 probability , 26-28, 

日期 date, 28. 


var- 


squares 


；1 II 


， 222-26 


errors 


* 


数学 mathematical , 25-27. 

专门 special ， 29. 

字符串 string ， 29. 

合并. 命令 merge, 41-47. 

合并数据文件 combine data files ， 14 ， 39-44* 

合并图形（见合并图形 . 命令 ） combine graphs. 

See graph combine, 101. 

横向条形图 • 命令 graph hbar ， 85-86. 

横向箱线图•命令 graph hbox, 81 ， 131. 

宏 macro, 203, 291 ， 316, 318, 320, 322, 337. 

后记格式 （.ps 或 • eps ) 图 Encapsulated Postscript 回归系数 


逐步 stepwise ， 140 ， 161-64 


转换变量 transformed variables, 164- 66 

188, 193-201. 


_b coefficients (regression) ， 199, 234, 

236-38, 247, 310, 

回归中的吸收变量.命令 areg ( absorb varia¬ 
bles in regression) , 155-57. 

计数时间数据 count-time data ， 255-57. 

计算存活函数 •命令 sfcs generate (generate 

survivor function) ， 252, 


(_ ps or . eps) graph ， 100. 

后记格式 （• ps 或 • eps ) 图 Postscript (. 

eps) graph, 6 ， 100. 

0 出存活函数 _ 命令 sts graph (graph 
function) ， 251 ， 257, 259. 

灰度 gray scale ， 77. 


ps or 


survivor 


回归 


技术支持 technical support, 9 


regression 
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奏花图 sunflower plot, 67-69* 

扩展分量加残差标绘图.命令 acprplot (aug¬ 
mented component-plus -residual plot ) ， 171 ， 

175-77. 

扩展交互项 _ 命令 xi (expanded interaction terms ) ， 

140, 159-61. 


季节差分（时间序列 ） seasonal difference ( time 

series ) ， 304-5* 

加权最小二乘 （ WLS) weighted least squares 

(WLS) , 140, 212. 

检验存活函数.命令 

function) ， 252 ， 259, 

建立正态变量 • 命令 drawnorm (normal varia- 


sts test ( test survivor 


See graph two- 


图 . 命令 . cubic spline 
way mspline 
连接函数 （ GLM) link function ( GLM ) ， 253 ， 

272-75. 

两阶段最小二乘 （ 2SLS) two- stage least squares 

(2SLS), 140. 

两样本检验 two sample test, 127-29. 

列出.命令 list, 2- 4 ， 14 ， 17 ， 19 ， 45, 

50, 231. 

歹 (J 出存活函数.命令 sts list (list 

function) ， 252. 

浏览（数据浏览器） * 命令 browse ( Data Brow¬ 
ser) ,13. 

流行病学梯度表 epidemiological tables , 250. 

逻辑运算（符 ） logical operator ， 20 . 


curve 


ble) ， 13, 54- 

将计数时间转成生存时间数据.命令 


cttoset 

(convert count-time to survival-time data) ， 251 ， 


255-57. 

交叉相关 
交叉相关（系数）.命令 

tion) ， 307-8, 

交互表 


correlation, 307-8 


cross- 


(cross- correla- 


xcorr 


tabulation, 104, 112-17. 

交互表的费舍确切检验 Fisher’s exact test in 

tabulation, 113. 

交互效应 interaction effect 

方差分析 ANOVA ， 123, 132-37, 217-20. 
回归 regression, 140 ， 157-61 ， 183- 85, 

225-26, 

接收器操作特征曲线 ROC 


cross- 


survi vor 


cross- 


(receiver oper- 


curve 


芒线图 spike plot ， 77-78, 302- 

经验正交函数 empirical orthogonal 帽子矩阵 hat matrix, 145 ， 178-79 ， 182. 

蒙特卡罗 Monte Carlo, 109, 213, 337-43 

幕阶梯 ladder of powers, 110- 11 


ating characteristic) , 229. 


functions, 283. 

茎叶图显示 stem-and-leaf display ， 107-8 
纠多元共线性对中 centering to reduce multicol- 幂阶梯制图.命令 gladder, 110 


_ 


面板数据 panel data, 140, 166-69* 


linearity, 184-86 

纠偏态转换 • 命令 bcskewO (transform to reduce 面板数据回归 • 命令 xtreg ( panel data regres¬ 


sion) ,140, 165-69. 

描述（数据 ）• 命令 describe ( describe data), 

3, 18. 

模型假设 检验. 命令 test (hypothesis test for 

I 

model) ， 139, 152-53, 271. 

内存 memory ， 14 ， 55-58* 

内核密度 kernel density ， 60 ， 64 ， 76. 

拟合 logistic 模型•命令 If it ( fit of logistic 

model) ， 229- 

tabula- 排列变量序次 • 命令 order ( oder variables in 

data) , 18* 

排序.命令 sort ， 14, 18, 20-21 ， 144, 320. 

配对差异检验 paired difference test, 124, 

126-27. 

配对检验 matched-pairs test ， 124 ， 126-27. 

批模式程序 batch-mode program ， 56. 

皮尔逊相关 Pearson correlation ， 5 ， 18 ， 139 ， 


skew) f 111. 

矩阵代数 matrix algebra, 329-33 ， 

聚类分析 cluster analysis ， 276-77 ， 286-94. 

卡方 chi- squared 

logistic 模型似然比 likelihood- ratio in logistic 

regression, 232-33 ， 234 ， 235-37 ， 244, 
等方差 equal variances in ANOVA ， 129-31. 

分位图 quantile plot ， 90. 

概率图 probability plot, 90. 

交互表中独立 independence in 

tion ， 50, 112-15, 112-15, 244. 

交互表中似然比 likelihood- ratio 
ulation ， 112-14 ， 244. 

偏差度 （ logistic 回归） deviance ( logistic 

gression) ， 235 ， 238-41 
开放数据库互连 ODBC (Open Database Connec¬ 
tivity) , 39 - 


I 


cross- 


-tab- 


in crass 


re- 


, 
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149-51 


139, 222-26. 


偏度 - 峰度检验 •命令 skteet ( skewness- kurto- 散点矩阵图.命令 

sis test) ， 109 ， 333. 

偏回归图 . 见附加变量标绘图 . partial 

plot. See added- variable plot 

偏态 / 偏度 skewness, 105-7 ， 108-10. 

偏自相关 partial autocorrelation, 295-97 ， 306 - 

频数表 frequency table, 112-15 ， 119-20. 

频数权数 frequency weights, 49-51 ， 61 ， 67-68 ， 

103, 105, 119-21 

频数权数.命令 fweight ( frequency weights ) ， 

49-51 ， 67-68, 119-21. 

平均数 mean, 105-7 ， 108, 116-18 ， 120-21 ， 

124-37, 337-40. 

屏幕显 7K . 命令 display (show value 

screen) , 29-30, 36, 183 ， 234. 

谱密度 spectral density ， 296. 

期内（不含端点）.命令 twithin (times with- 生存分析 

in) ， 302. 

期内（含端点）•命令 tin (times in) ， 302-3 ， 

305, 312. 

启动日志文件.命令 log ， 2-3. 

前导（时间序列 ） lead (time series) ， 304-5. 

悄悄地.命令 quietly, 153, 158, 164. 

清除（出内存）.命令 clear ( 

memory) , 14-15, 22, 315. 

清除, 命令 drop 


graph matrix ， 70 ， 


150-51. 

散点图（见二维散点图 _ 命令） scatterplot. Also 

see graph twoway scatter 


regression 


带回归线 with regression line ， 60, 95- 97 ， 

138-40, 157-59. 

基本 basic ， 60-62. 

记号标签 marker labels, 62, 67-69 ， 175-78* 

记号符号 marker symbols, 66 - 67, 102 ， 

158-59. 

加权 weighting, 61 ， 67-69 ， 179-80, 

矩阵 matrix ， 61 ， 70 ， 151. 

轴标签 axis labels, 61 ， 66. 

散点图矩阵 . 命令 graph matrix, 61. 

删截正态回归 censored- normal 

set 


■ 


on- 


regression, 230, 


设定内存.命令 


ory, 14, 56-58. 

survival analysis, 250-68. 

生存分析回归.命令 streg (survival- analysis 

regression) ， 252 ， 264-68* 

生存分析图.命令 

graphs) , 253 ， 266. 

生存时间数据概要统计.命令 stsum ( 

rize survival-time data) , 251, 255, 258. 

生存时间数据描述.命令 stdes (describe 


-llWMl 


(survival analysis 


stcurve 


summa- 


data from 


remove 


sur¬ 


vival time data) ， 251 ， 254. 

时间标绘图 time plot, 70-75, 298-304. 

时间序列 time series, 295-313. 

时滞（时间序列 ）lag (time series), 304-5, 

实函数，命令 real, 32-34, 

使用第 7 版 Stata 画图命令.命令 graph7 ， 60. 

事件计数模型 event-count model ， 250，253 

269-71. 


内存中的变量 variable in memory 


21 


内存中的程序 progam in memory, 228, 325-26. 

内存中的数据 data i 


14- 15, 22, 


in 


memory 


38, 52 


区域图 


plot ， 76-78 
曲线标绘图 line plot ， 70-75. 

取回图 retrieve graph, 100. 

取消标签 • 命令 nolabel, 30-31, 

全距标准化 range standardization, 291-92 


area 




树状图 tree diagram, 277, 287, 289-93 

数据格式变换 . 命令 reshape ， 45-48, 

数据管理 data management , 11-58. 


全距图 range plot, 79 

权数 


数据库文件 database file, 38-40 


weights, 50- 53 ， 67- 69 ， 105-7 ， 119 - 数据浏览器 


Data Browser, 13. 

数据转换程序 Stat/Transfer , 40, 

数据转置.命令 xpose ( transpose data ) , 

44-46. 


21 ， 140, 

缺失值 missing value, 13-16 ， 20, 34-36. 

人造数据 artificial data, 13 ， 52- 56， 208 

337-43. 


数据字典 data dictionary, 39. 

数值变量 numerical variables, 16, 20, 105. 

斯皮尔曼等级相关 Spearman correlation ， 

151-52. 

四分位距 interquartile range (IQR) ， 49 ， 80, 83 ， 


曰期 date ， 28, 230, 296-98 - 
日志文件 log file , 2-3, 5-7. 

如果 …… 否则（编程命令） if... else, 319. 

二明治方差估计 sandwich estimator of variance, 
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98, 137, 192, 299. 

图中文本 text in graph, 94-95 ， 97 ， 193_ 

(likelihood- ratio 图注 caption in graph ， 93-95 ， 

网站 web site, 8. 

文本文件 ASCII (text) file 

读数据 read data, 12-14, 37-40. 

写结果 write result (log files) ， 2-3, 5-7. 
写数据 write data) ， 39. 

文字处理器 word processor 

插入 Stata 表格到 insert Stata table into, 4. 

插人 Stata 图形到 insert Stata graph into, 5 

稳健 robust 

标准误和方差 standard 
222-26. 

回归 regression ， 207 - 23. 

， 221 _ 

稳健回归-命令 rreg (robust regression) , 206- 

22, 339-43. 

稳态时间序列 stationary time series ， 296 ， 

309 - 10. 

误差条形图 

系统树图 dendrogram , 277, 287, 286-92. 

下标 subscript f 36-38 , 299. 

显示格式 display format ， 13 ， 23-24 ， 312. 

显示字符 letter- value display, 108. 

线性回归.命令 regress (linear regression), 

137-44, 207, 336, 339-43. 

相对风险比 relative risk ratio ， 229 ， 244-47, 

相关 correlation 

Kendall 的 t 统计量 Kendall’s tau ， 114 ， 152. 

回归系数估计 regression coefficient estimates f 


89, 105-7, 108, 117. 

四分位数 quartile, 80, 107-9 

似然比检验.命令 


lrtest 

test) ， 236-37, 241-42, 245,46, 

似然比卡方 . 见卡方 . likelihood-ratio chi-squared 




See chi-squared 

搜索 , 命令 search, 7-9. 

随机数发 生器. 命令 uniform (random number 

generator) ， 28 ， 51-54 ， 209. 

随机数据 random data ， 51-55 ， 209 1 337-43* 

随机数字 random number ， 28 ， 51-55 ， 209 ， 

随机样本 random sample ， 14, 55. 

碎石图（特征值） 

276-77, 278-79. 

碎石图（特征值） • 命令 greigen (graph eigen¬ 
values) , 276-77 ， 279, 

探测性数据分析 （ EDA) Exploratory Data Analy¬ 

sis (EDA) ， 107-9. 

特异值 outlier ， 109, 207-16, 338-43. 

特征值 eigenvalue t 276-77 ， 278 ， 284. 

替换•命令 replace ， 16, 31 _ 

条件效应标绘图 conditional effect plot ， 199- 

201 ， 237-38, 247-49. 

条形图 bar chart, 83-87. 

条形图•命令 graph bar ， 60-62, 83-87, 128. 

通用排序 . 命令 gsort ( general sorting ) ， 

14, 320. 

图数轴标签 axis label in graph, 61. 

格式 format ， 13 ， 23-24 ， 69 ， 264-66. 

角 angle, 73-74. 

隐藏 suppress, 100, 111 ， 151. 

栅格 grid, 97-99, 

图数轴刻度 axis scale in graph ， 61 ， 96-102. 

图形合并■命令 graph combine, 6, 100-102 ， 

128, 131 ， 193, 200-201. 

图形输出 • 命令 graph export, 100. 

图中边距 

图中标题 title in graph, 94-95 ， 96-98* 

图中的线 line in graph 

宽度 width, 192, 299, 323. 

样式 pattern ， 73-74 ， 75 ， 99. 

图中记号标签 marker label in graph, 61, 69, 

175, 177. 

图中记号符号 marker symbol in graph ， 61 ， 66 - 协方差 


d variance, 


graph ( eigenvalues ) ， 


errors 


\i\i] 


scree 


平均数 


mean 


bar plot, 124 ， 134-37 


error- 


186 


假设检验 hypothesis test, 139 ， 149-50. 

矩阵 matrix, 18, 54, 139, 150 

皮尔逊积矩 Pearson product-moment ， 1 ， 18 ， 

139, 149-50. 

斯皮尔曼 Spearman ， 152. 

相关矩阵 . 命令 pwcorr (pairwise Pearson 

lation) ? 139, 149-51 ， 152, 

箱线图 box plot ， 61, 79-81 ， 101-2 ， 130-32, 

339, 341. 

箱线图•命令 graph box ， 61 ， 79-81 ， 101-2, 

128, 339, 341. 


ft 


graph， 94 , 97, 100-102, 167 


I fK.lJ 


corre- 


covanance 


变量 variables, 139 ， 150. 

回归系数估计 


69, 75, 87, 159, 240, 

图中图例 legend in graph ， 71 ， 72 ， 74 ， 96 ， 97 


regression coefficient esti- 
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应用 STAT / V 做统计分析 


mates, 145, 151 ， 171, 186. 

协方差分析 analysis of 

122-24, 133-34. 

斜率虚拟变量 slope dummy variable, 157. 

写出文本 数据 . 命令 out file (write ASCII da¬ 
ta) , 39 - 

修匀 smoothing ， 296-98, 298-30L 

修匀时间序列•命令 t s smooth (time series 

smoothing) ， 296-97, 299-301. 

虚拟变量 dummy variable, 32-34 ， 153-61, 232. 

序次 logistic 回归 ordered logistic regression, 241- 


gression 


(ANCOVA), 预测（预测值、残差、诊断统计量）.命令 


covan ance 


re- 

diet ( predicted values, residuals, diagnostics) 

logistic 回归 • 命令 logistic ， 229 ， 233- 

35 ， 246. 


差分自回归移动平均模型.命令 


，310 


arxma 


方差分析•命令 anova ， 134-37, 134-37, 
回归.命令 


regress, 138 ， 144-46 ， 165, 
170-71 ， 178-82, 188, 201. 


因子分 factor 

约束，命令 constraint (linear 

暂存估计（用于假设检验）.命令 

store ( hypothesis tesing) ， 236- 37, 241-42 

245-46, 

诊断统计 diagnostic statistics 


276-77, 281-83. 


scores 


9 


43 


constraints) , 227. 

estimates 


旋转（因子分析 ） rotation (factor analysis) , 276- 

77, 279-83. 

选择案例样本•命令 marksample, 320-21. 

学生化残差 studentized residual , 145，178 

循环 looping , 317-19. 

循环 （for each)* 命令 foreach ，318. 


179 


* 


logistic 回归 logistic regression ， 235 ， 238-41 

方差分析 ANOVA ， 137, 145. 

回归 regression, 145 ， 170-86. 

诊断统计量（案例对模型的影响） 


循环 （forvalues) ■ 命令 f orvalues , 317. 

循环.命令 while ， 317-19. 

压缩•命令 compress ， 13, 38, 55-56. 

一 般化线性建模 generalized linear modeling 诊断统计量（案例对模型的影响 ) 

(GLM) ， 229, 253, 271-75. 


DFBETA ， 


137, 145, 171 ， 178-79, 180-82, 180-82 


DFITS， 145 


171 ， 179. 

正态分布 nomial distribution 

检验 test for, 109-12. 


移动平均数 

过滤器 filter , 297, 299-300. 

时间序列模型 time series model ， 308-13. 
遗漏变量检验 omitted- variable test, 171, 173, 

异方差性 heteroskedasticity , 140 ， 171, 173, 

194-95, 207, 222-24, 252, 273, 295. 

异方差性检验.命令 hettest (heteroskedastic- 

ity test) ， 171 ， 173. 

因子方差分析 factorial ANOVA ， 123 ， 132- 
33, 136, 

因子分 factor score, 276-77 ， 281-83, 

因子分析 factor analysis , 276-86. 

因子旋转 factor rotation ， 276- 77 ， 279-83. 

阴影 shading 

亮度 intensity ， 81. 

颜色 color ， 77. 

应用取值标签，命令 label values 

影响 influence 


moving average 


曲线 


60 


人造数据 artificial data ， 13 ， 53 ， 209. 

正态概率图 . 见分位 - 正态标绘图 . normal proba¬ 
bility plot * See Quantile- normal plot 

直方图•命令 histogram, 60, 61-66, 336. 

直接置信区间 • 命令 cii ( immediate confidence 

interval) , 107. 

指数过滤器（时间序列 ） exponential filter (ti 

series) ， 299. 

指数回归（生存分析） 

(survival analysis) , 264 

指数增长模型 exponential growth model, 

201-3. 

制表■命令 table, 8, 103, 115-17. 

制表.命令 tabulate ， 4 ， 15 ， 33-35, 49 ， 50, 

103, 112-15, 117. 

质量控制图 quality- control graph 

质量控制图 • 命令 shewhart ， 91. 

秩 rank, 30. 

秩和检验 rank-sum test, 124 ， 129，132 
置信区间 confidence interval 


me 


exponential regression 


188 


24-25. 




logistic 回归 logistic regression, 235, 238-41 

回归（常规最小二乘法） 


62, 91-93. 


s 




regression ( OLS ) ， 


145, 170-72, 175, 177-80. 

稳健回归 robust 


regression ， 215. 

优势比.见 logistic 回归 . odds ratio 


See logistic 


re- 
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着色 color 

饼图 pie chart, 82. 

散点图 scatterplots symbols, 67. 

条形图 bar chart, 83-85• 

阴影地带 shaded regions ， 77. 

字符串变量 string variable, 17, 37-38. 

字符转换（字符变数字），命令 destring 

(string to numeric) ， 33, 

字符转数字 string to 

自动 do 文件 ado- file ( automatic do) ， 201- 3 , 

315, 325-26. 

自动编序码.命令 autocode ( create ordinal 

variables) ? 29, 34-36. 

自回归条件异方差模型 ARCH model ( autore¬ 
gressive conditional heteroskedasticity) , 295. 

自相关（系数） autocorrelation, 295 ， 305-7 ， 310- 
12, 321-25. 

自相关 • 命令 corrgram ( autocorrelation) , 296, 

305, 310-12, 325. 

自相关系数.命令 

自助法 bootstrap , 213 ， 273- 74 ， 333- 37, 
339-43. 

自助法 • 命令 bs (bootstrap) , 336 ， 

最大似然估计量 Af-estimator ， 209. 

最小二乘估计量 L- estimator , 209. 


泊松分布 Poisson 
二项分布 binomial , 107 - 

回归系数 regression coefficients ? 142- 

回归线 regression line ， 60 ， 94-97, 139 

平均数 

稳健平均数 robust 
自助法 bootstrap ， 334-35 ， 336. 

置信区间 _ 命令 ci ( confidence interval ) ， 

107, 22L 

中位数 median , 80-81 , 105-7 ， 108, 116-18 
337-40. 

中位数回归 . 见分位数回归 _ median regression 

See quantile 

重命名.命令 


107. 


107. 


mean 


1 


222 . 


mean 


numeric ， 30-33 


1 


_ 


regression 


,16, 17. 

重要性权数.命令 iweight (importance weights ) ， 


rename 


49. 


周期图 periodogram ， 296• 

逐步回归 stepwise regression ， 140 ， 161-64. 

逐步模型拟合.命令 

ting) , 161-64. 

主成分 principal components, 276-83. 

转换变量 transform variable, 109-12 ， 164- 

65, 188, 

转换数据 transfer data ， 39-40. 

转置数据 transpose data ， 44-46. 


(stepwise model fit- 


sw 


(autocorrelations ) ， 295 


au 













































































































































































































































































































































































































































